编码
编码
一个 List
of overflowing 编码
在使用截断时,分词器 会负责将输出拆分为尽可能多的片段,以匹配指定的最大长度。此字段允许你检索所有后续片段。
当你使用序列对时,溢出片段将包含足够的变体来覆盖所有可能的组合,同时尊重提供的最大长度。
生成的序列索引。
它们表示与每个令牌相关的输入序列的索引。如果令牌与任何输入序列无关,例如特殊令牌,则序列 ID 可以为 None。
生成的单词索引。
它们表示与每个令牌相关的单词的索引。当输入是预分词时,它们对应于给定输入标签的 ID,否则它们对应于由 预分词器 定义的单词索引。使用。
对于特殊令牌等(任何从不是输入部分的某件事生成的令牌),输出为 None
生成的单词索引。
已弃用,将在未来版本中删除。请使用 ~tokenizers.Encoding.word_ids
代替。
它们表示与每个令牌相关的单词的索引。当输入是预分词时,它们对应于给定输入标签的 ID,否则它们对应于由 预分词器 定义的单词索引。使用。
对于特殊令牌等(任何从不是输入部分的某件事生成的令牌),输出为 None
将 Encoding 填充到给定长度
获取给定索引的标记的偏移量。
返回的偏移量与包含标记的输入序列相关。为了确定它属于哪个输入序列,你必须调用 ~tokenizers.Encoding.token_to_sequence()
。
获取给定令牌所表示的序列的索引。
在一般使用情况下,此方法对于单个序列或一对序列中的第一个序列返回 0
,对于一对序列中的第二个序列返回 1
获取包含该令牌的输入序列中的单词索引。
返回的单词索引与包含该令牌的输入序列相关。为了确定它属于哪个输入序列,您必须调用 ~tokenizers.Encoding.token_to_sequence()
。
将 Encoding 截断为给定长度
如果此 Encoding 表示多个序列,则在截断时会丢失此信息。它将被视为表示单个序列。