Tokenizers 文档

添加的 Tokens

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始

添加的 Tokens

Python
Rust
Node

AddedToken

class tokenizers.AddedToken

( content single_word = False lstrip = False rstrip = False normalized = True special = False )

参数

  • content (str) — token 的内容
  • single_word (bool, 默认为 False) — 定义此 token 是否应仅匹配单个词。如果为 True,则此 token 永远不会在单词内部匹配。例如,如果此选项为 False,则 token ing 将匹配 tokenizing,但如果为 True 则不匹配。“单词内部”的概念由正则表达式中的单词边界模式定义(即,token 应该以单词边界开始和结束)。
  • lstrip (bool, 默认为 False) — 定义此 token 是否应去除其左侧所有潜在的空格。如果为 True,则此 token 将贪婪地匹配其左侧的任何空格。例如,如果我们尝试匹配 token [MASK]lstrip=True,在文本 “I saw a [MASK]” 中,我们将匹配 “ [MASK]”。(注意左侧的空格)。
  • rstrip (bool, 默认为 False) — 定义此 token 是否应去除其右侧所有潜在的空格。如果为 True,则此 token 将贪婪地匹配其右侧的任何空格。它的工作方式与 lstrip 相同,但作用于右侧。
  • normalized (bool, 默认为 True,使用 —meth:~tokenizers.Tokenizer.add_tokens 时;False,使用 add_special_tokens() 时):定义此 token 是否应与输入文本的归一化版本匹配。例如,对于添加的 token “yesterday”,以及负责将文本转换为小写的 normalizer,可以从输入 “I saw a lion Yesterday” 中提取 token。
  • special (bool, 默认为 False,使用 —meth:~tokenizers.Tokenizer.add_tokens 时;False,使用 add_special_tokens() 时):定义解码时是否应跳过此 token。

表示可以添加到 Tokenizer 的 token。它可以具有定义其行为方式的特殊选项。

property content

获取此 AddedToken 的内容

property lstrip

获取 lstrip 选项的值

property normalized

获取 normalized 选项的值

property rstrip

获取 rstrip 选项的值

property single_word

获取 single_word 选项的值

< > 在 GitHub 上更新