Tokenizers 文档
编码
并获取增强的文档体验
开始
编码
Encoding
The Encoding represents the output of a Tokenizer.
注意力掩码
这向语言模型 (LM) 指示应关注哪些 token,哪些不应关注。这在批量处理序列(我们需要应用填充)时尤其重要。
与每个 token 关联的 offsets
这些 offsets 让您可以切片输入字符串,从而检索生成相应 token 的原始部分。
溢出的 Encoding 列表
当使用截断时,Tokenizer 负责将输出拆分为尽可能多的片段,以匹配指定的最大长度。此字段允许您检索所有后续片段。
当您使用序列对时,溢出的片段将包含足够的变体来涵盖所有可能的组合,同时遵守提供的最大长度。
生成的序列索引。
它们表示与每个 token 关联的输入序列的索引。如果 token 与任何输入序列无关,则序列 ID 可以为 None,例如对于特殊 token。
生成的类型 ID
通常用于序列分类或问答等任务,这些 token 让语言模型知道每个 token 对应于哪个输入序列。
生成的单词索引。
它们表示与每个 token 关联的单词的索引。当输入是预分词的时,它们对应于给定输入标签的 ID,否则它们对应于所使用的 PreTokenizer 定义的单词索引。
对于特殊 token 等(任何从不属于输入一部分的内容生成的 token),输出为 None
生成的单词索引。
此属性已弃用,将在未来版本中删除。请改用 ~tokenizers.Encoding.word_ids
。
它们表示与每个 token 关联的单词的索引。当输入是预分词的时,它们对应于给定输入标签的 ID,否则它们对应于所使用的 PreTokenizer 定义的单词索引。
对于特殊 token 等(任何从不属于输入一部分的内容生成的 token),输出为 None
merge
( encodings growing_offsets = True ) → Encoding
将 encoding 列表合并为一个最终的 Encoding
在给定长度处填充 Encoding
获取给定索引处 token 的 offsets。
返回的 offsets 与包含 token 的输入序列相关。为了确定它属于哪个输入序列,您必须调用 ~tokenizers.Encoding.token_to_sequence()
。
获取给定 token 表示的序列的索引。
在一般用例中,对于单个序列或序列对的第一个序列,此方法返回 0,对于序列对的第二个序列,此方法返回 1
获取输入序列之一中包含 token 的单词的索引。
返回的单词索引与包含 token 的输入序列相关。为了确定它属于哪个输入序列,您必须调用 ~tokenizers.Encoding.token_to_sequence()
。
在给定长度处截断 Encoding
如果此 Encoding 表示多个序列,则在截断时此信息将丢失。它将被视为表示单个序列。