分词器文档
新增词符
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
新增词符
Python
Rust
Node
AddedToken
class tokenizers.AddedToken
( content single_word = False lstrip = False rstrip = False normalized = True special = False )
参数
- content (
str
) — 词符的内容 - single_word (
bool
, 默认为False
) — 定义此词符是否应仅匹配单个单词。如果为True
,此词符将永远不会匹配单词内部。例如,如果此选项为False
,词符ing
将匹配tokenizing
,但如果为True
则不会匹配。“单词内部” 的概念由正则表达式中的单词边界模式定义(即,词符应以单词边界开始和结束)。 - lstrip (
bool
, 默认为False
) — 定义此词符是否应去除其左侧所有潜在的空白字符。如果为True
,此词符将贪婪地匹配其左侧的任何空白字符。例如,如果我们尝试在文本"I saw a [MASK]"
中匹配lstrip=True
的词符[MASK]
,我们将匹配到" [MASK]"
。(注意左侧的空格)。 - rstrip (
bool
, 默认为False
) — 定义此词符是否应去除其右侧所有潜在的空白字符。如果为True
,此词符将贪婪地匹配其右侧的任何空白字符。它的工作方式与lstrip
类似,但作用于右侧。 - normalized (
bool
, 对于 —meth:~tokenizers.Tokenizer.add_tokens 默认为True
,对于add_special_tokens()
默认为False
):定义此词符是否应与输入文本的归一化版本进行匹配。例如,对于新增的词符"yesterday"
和一个负责将文本转为小写的归一化器,可以从输入"I saw a lion Yesterday"
中提取该词符。 - special (
bool
, 对于 —meth:~tokenizers.Tokenizer.add_tokens 默认为False
,对于add_special_tokens()
默认为False
):定义在解码时是否应跳过此词符。
表示可以添加到 Tokenizer 的词符。它可以有特殊的选项来定义其行为方式。