添加的 Token
Python
Rust
Node
AddedToken
类 tokenizers.AddedToken
( 内容 single_word = False lstrip = False rstrip = False normalized = True )
参数
- content (
str
) — Token 的内容 - single_word (
bool
, 默认为False
) — 定义此 Token 是否只匹配单个单词。如果为True
,则此 Token 永远不会匹配单词内部。例如,如果此选项为False
,则 Tokening
会匹配tokenizing
,但如果为True
,则不会匹配。 “单词内部” 的概念由正则表达式中的单词边界模式定义(即 Token 应以单词边界开头和结尾)。 - lstrip (
bool
, 默认为False
) — 定义此 Token 是否应在其左侧去除所有潜在的空格。如果为True
,则此 Token 将贪婪地匹配其左侧的任何空格。例如,如果我们尝试使用lstrip=True
匹配 Token[MASK]
,在文本"I saw a [MASK]"
中,我们将匹配" [MASK]"
。(请注意左侧的空格)。 - rstrip (
bool
, 默认为False
) — 定义此 Token 是否应在其右侧去除所有潜在的空格。如果为True
,则此 Token 将贪婪地匹配其右侧的任何空格。它的工作原理与lstrip
相同,但作用于右侧。 - normalized (
bool
,默认为使用 —meth:~tokenizers.Tokenizer.add_tokens 时为True
,使用add_special_tokens()
时为False
):定义此标记是否应与输入文本的规范化版本匹配。例如,使用添加的标记"yesterday"
,以及负责将文本小写的规范化器,可以从输入"I saw a lion Yesterday"
中提取标记。
表示可以添加到 Tokenizer 的标记。它可以具有定义其行为方式的特殊选项。