分词器文档

添加的 Token

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

添加的 Token

Python
Rust
Node

AddedToken

tokenizers.AddedToken

( 内容 single_word = False lstrip = False rstrip = False normalized = True )

参数

  • content (str) — Token 的内容
  • single_word (bool, 默认为 False) — 定义此 Token 是否只匹配单个单词。如果为 True,则此 Token 永远不会匹配单词内部。例如,如果此选项为 False,则 Token ing 会匹配 tokenizing,但如果为 True,则不会匹配。 “单词内部” 的概念由正则表达式中的单词边界模式定义(即 Token 应以单词边界开头和结尾)。
  • lstrip (bool, 默认为 False) — 定义此 Token 是否应在其左侧去除所有潜在的空格。如果为 True,则此 Token 将贪婪地匹配其左侧的任何空格。例如,如果我们尝试使用 lstrip=True 匹配 Token [MASK],在文本 "I saw a [MASK]" 中,我们将匹配 " [MASK]"。(请注意左侧的空格)。
  • rstrip (bool, 默认为 False) — 定义此 Token 是否应在其右侧去除所有潜在的空格。如果为 True,则此 Token 将贪婪地匹配其右侧的任何空格。它的工作原理与 lstrip 相同,但作用于右侧。
  • normalized (bool,默认为使用 —meth:~tokenizers.Tokenizer.add_tokens 时为 True,使用 add_special_tokens() 时为 False):定义此标记是否应与输入文本的规范化版本匹配。例如,使用添加的标记 "yesterday",以及负责将文本小写的规范化器,可以从输入 "I saw a lion Yesterday" 中提取标记。

表示可以添加到 Tokenizer 的标记。它可以具有定义其行为方式的特殊选项。

属性 content

获取此 AddedToken 的内容

属性 lstrip

获取 lstrip 选项的值

属性 normalized

获取 normalized 选项的值

属性 rstrip

获取 rstrip 选项的值

属性 single_word

获取 single_word 选项的值