编码输入
Python
Rust
Node
这些类型代表了 分词器 在使用 encode_batch()
时接受的所有不同类型的输入。
TextEncodeInput
tokenizers.TextEncodeInput
表示用于编码的文本输入。可以是以下之一:
- 单个序列:TextInputSequence
- 一对序列
- 包含 TextInputSequence 的元组
- 或大小为 2 的 TextInputSequence 列表
Union[str, Tuple[str, str], List[str]]
的别名。
PreTokenizedEncodeInput
tokenizers.PreTokenizedEncodeInput
表示用于编码的预分词输入。可以是以下之一:
- 单个序列:PreTokenizedInputSequence
- 一对序列
- 包含 PreTokenizedInputSequence 的元组
- 或包含 PreTokenizedInputSequence 的大小为 2 的列表
Union[List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]]
的别名。
EncodeInput
tokenizers.EncodeInput
表示用于编码的所有可能的输入类型。可以是以下之一:
- 当
is_pretokenized=False
时:TextEncodeInput - 当
is_pretokenized=True
时:PreTokenizedEncodeInput
Union[str, Tuple[str, str], List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]]
的别名。