分词器文档
编码
并获得增强的文档体验
开始使用
编码
编码
`Encoding` 表示 `Tokenizer` 的输出。
注意力掩码
这向语言模型(LM)指示哪些词符应被关注,哪些不应被关注。这在批处理序列时尤其重要,因为我们需要应用填充。
与每个词符关联的偏移量
这些偏移量让您能够对输入字符串进行切片,从而检索到产生相应词符的原始部分。
一个包含溢出的 `Encoding` 的 `List`
使用截断时,`Tokenizer` 会负责将输出分割成所需数量的片段,以匹配指定的最大长度。此字段可让您检索所有后续的片段。
当您使用成对的序列时,溢出的片段将包含足够的变化,以覆盖所有可能的组合,同时遵守提供的最大长度。
生成的序列索引。
它们表示与每个词符关联的输入序列的索引。如果词符与任何输入序列无关(例如特殊词符),则序列 ID 可以为 None。
生成的单词索引。
它们表示与每个词符关联的单词的索引。当输入已经预分词时,它们对应于给定输入标签的 ID,否则它们对应于由所使用的 `PreTokenizer` 定义的单词索引。
对于特殊词符等(任何非输入部分生成的词符),输出为 `None`。
生成的单词索引。
此属性已弃用,并将在未来版本中移除。请改用 `~tokenizers.Encoding.word_ids`。
它们表示与每个词符关联的单词的索引。当输入已经预分词时,它们对应于给定输入标签的 ID,否则它们对应于由所使用的 `PreTokenizer` 定义的单词索引。
对于特殊词符等(任何非输入部分生成的词符),输出为 `None`。
合并
( encodings growing_offsets = True ) → Encoding
参数
- encodings (一个 `List` 类型的 `Encoding`) — 应该合并为一个的编码列表
- growing_offsets (
bool
, 默认为True
) — 合并时偏移量是否应累加
返回
生成的编码
将编码列表合并为一个最终的 `Encoding`
将 `Encoding` 填充到指定长度
获取给定索引处词符的偏移量。
返回的偏移量与包含该词符的输入序列相关。要确定它属于哪个输入序列,必须调用 `~tokenizers.Encoding.token_to_sequence()`。
获取由给定词符表示的序列的索引。
在一般用例中,对于单个序列或一对序列中的第一个序列,此方法返回 `0`;对于一对序列中的第二个序列,返回 `1`。
获取在其中一个输入序列中包含该词符的单词的索引。
返回的单词索引与包含该词符的输入序列相关。要确定它属于哪个输入序列,必须调用 `~tokenizers.Encoding.token_to_sequence()`。
将 `Encoding` 截断至指定长度
如果此 `Encoding` 表示多个序列,在截断时此信息会丢失。它将被视为表示单个序列。