Tokenizers 文档
添加的 Tokens
加入 Hugging Face 社区
并获取增强的文档体验
开始
添加的 Tokens
Python
Rust
Node
AddedToken
class tokenizers.AddedToken
( content single_word = False lstrip = False rstrip = False normalized = True special = False )
参数
- content (
str
) — token 的内容 - single_word (
bool
, 默认为False
) — 定义此 token 是否应仅匹配单个词。如果为True
,则此 token 永远不会在单词内部匹配。例如,如果此选项为False
,则 tokening
将匹配tokenizing
,但如果为True
则不匹配。“单词内部”的概念由正则表达式中的单词边界模式定义(即,token 应该以单词边界开始和结束)。 - lstrip (
bool
, 默认为False
) — 定义此 token 是否应去除其左侧所有潜在的空格。如果为True
,则此 token 将贪婪地匹配其左侧的任何空格。例如,如果我们尝试匹配 token[MASK]
且lstrip=True
,在文本 “I saw a [MASK]” 中,我们将匹配 “ [MASK]”。(注意左侧的空格)。 - rstrip (
bool
, 默认为False
) — 定义此 token 是否应去除其右侧所有潜在的空格。如果为True
,则此 token 将贪婪地匹配其右侧的任何空格。它的工作方式与lstrip
相同,但作用于右侧。 - normalized (
bool
, 默认为True
,使用 —meth:~tokenizers.Tokenizer.add_tokens 时;False
,使用add_special_tokens()
时):定义此 token 是否应与输入文本的归一化版本匹配。例如,对于添加的 token “yesterday”,以及负责将文本转换为小写的 normalizer,可以从输入 “I saw a lion Yesterday” 中提取 token。 - special (
bool
, 默认为False
,使用 —meth:~tokenizers.Tokenizer.add_tokens 时;False
,使用add_special_tokens()
时):定义解码时是否应跳过此 token。
表示可以添加到 Tokenizer 的 token。它可以具有定义其行为方式的特殊选项。