(inputis_pretokenized = Falseadd_special_tokens = True)→一个包含 [`~tokenizers.Encoding“] 的 List
参数
输入 (List/`Tuple of ~tokenizers.EncodeInput) — 要编码的单个序列或序列对列表。每个序列可以是原始文本或预标记化的,具体取决于 is_pretokenized 参数:
如果 is_pretokenized=False:TextEncodeInput()
如果 is_pretokenized=True:PreTokenizedEncodeInput()
is_pretokenized (bool, 默认为 False) — 输入是否已预标记化
add_special_tokens (bool, 默认为 True) — 是否添加特殊标记
返回
一个 [`~tokenizers.Encoding“] 的 List
编码后的批次
编码给定的输入批次。此方法接受原始文本序列以及已预标记化的序列。
示例
以下是一些可接受的输入示例
encode_batch([
"A single sequence",
("A tuple with a sequence", "And its pair"),
[ "A", "pre", "tokenized", "sequence" ],
([ "A", "pre", "tokenized", "sequence" ], "And its pair")
])