新增词符

Python

Rust

Node

AddedToken

class tokenizers.AddedToken

( content single_word = False lstrip = False rstrip = False normalized = True special = False )

参数

content (str) — 词符的内容
single_word (bool, 默认为 False) — 定义此词符是否应仅匹配单个单词。如果为 True，此词符将永远不会匹配单词内部。例如，如果此选项为 False，词符 ing 将匹配 tokenizing，但如果为 True 则不会匹配。“单词内部” 的概念由正则表达式中的单词边界模式定义（即，词符应以单词边界开始和结束）。
lstrip (bool, 默认为 False) — 定义此词符是否应去除其左侧所有潜在的空白字符。如果为 True，此词符将贪婪地匹配其左侧的任何空白字符。例如，如果我们尝试在文本 "I saw a [MASK]" 中匹配 lstrip=True 的词符 [MASK]，我们将匹配到 " [MASK]"。（注意左侧的空格）。
rstrip (bool, 默认为 False) — 定义此词符是否应去除其右侧所有潜在的空白字符。如果为 True，此词符将贪婪地匹配其右侧的任何空白字符。它的工作方式与 lstrip 类似，但作用于右侧。
normalized (bool, 对于 —meth:~tokenizers.Tokenizer.add_tokens 默认为 True，对于 add_special_tokens() 默认为 False)：定义此词符是否应与输入文本的归一化版本进行匹配。例如，对于新增的词符 "yesterday" 和一个负责将文本转为小写的归一化器，可以从输入 "I saw a lion Yesterday" 中提取该词符。
special (bool, 对于 —meth:~tokenizers.Tokenizer.add_tokens 默认为 False，对于 add_special_tokens() 默认为 False)：定义在解码时是否应跳过此词符。

表示可以添加到 Tokenizer 的词符。它可以有特殊的选项来定义其行为方式。

属性 content

获取此 AddedToken 的内容

属性 lstrip

获取 lstrip 选项的值

属性 normalized

获取 normalized 选项的值

属性 rstrip

获取 rstrip 选项的值

属性 single_word

获取 single_word 选项的值

< > 在 GitHub 上更新

Tokenizers

新增词符

AddedToken

class tokenizers.AddedToken