分词器文档

新增词符

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

新增词符

Python
Rust
Node

AddedToken

class tokenizers.AddedToken

( content single_word = False lstrip = False rstrip = False normalized = True special = False )

参数

  • content (str) — 词符的内容
  • single_word (bool, 默认为 False) — 定义此词符是否应仅匹配单个单词。如果为 True,此词符将永远不会匹配单词内部。例如,如果此选项为 False,词符 ing 将匹配 tokenizing,但如果为 True 则不会匹配。“单词内部” 的概念由正则表达式中的单词边界模式定义(即,词符应以单词边界开始和结束)。
  • lstrip (bool, 默认为 False) — 定义此词符是否应去除其左侧所有潜在的空白字符。如果为 True,此词符将贪婪地匹配其左侧的任何空白字符。例如,如果我们尝试在文本 "I saw a [MASK]" 中匹配 lstrip=True 的词符 [MASK],我们将匹配到 " [MASK]"。(注意左侧的空格)。
  • rstrip (bool, 默认为 False) — 定义此词符是否应去除其右侧所有潜在的空白字符。如果为 True,此词符将贪婪地匹配其右侧的任何空白字符。它的工作方式与 lstrip 类似,但作用于右侧。
  • normalized (bool, 对于 —meth:~tokenizers.Tokenizer.add_tokens 默认为 True,对于 add_special_tokens() 默认为 False):定义此词符是否应与输入文本的归一化版本进行匹配。例如,对于新增的词符 "yesterday" 和一个负责将文本转为小写的归一化器,可以从输入 "I saw a lion Yesterday" 中提取该词符。
  • special (bool, 对于 —meth:~tokenizers.Tokenizer.add_tokens 默认为 False,对于 add_special_tokens() 默认为 False):定义在解码时是否应跳过此词符。

表示可以添加到 Tokenizer 的词符。它可以有特殊的选项来定义其行为方式。

属性 content

获取此 AddedToken 的内容

属性 lstrip

获取 lstrip 选项的值

属性 normalized

获取 normalized 选项的值

属性 rstrip

获取 rstrip 选项的值

属性 single_word

获取 single_word 选项的值

< > 在 GitHub 上更新