Tokenizers 文档
编码输入
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
编码输入
Python
Rust
Node
这些类型代表了 Tokenizer 在使用 encode_batch()
时接受的所有不同类型的输入。
TextEncodeInput[[[ tokenizers.TextEncodeInput ]]]
tokenizers.TextEncodeInput
表示用于编码的文本输入。可以是以下类型:
- 单个序列:TextInputSequence
- 一对序列
- TextInputSequence 的元组
- 或大小为 2 的 TextInputSequence 列表
Union[str, Tuple[str, str], List[str]]
的别名。
PreTokenizedEncodeInput[[[ tokenizers.PreTokenizedEncodeInput ]]]
tokenizers.PreTokenizedEncodeInput
表示用于编码的预分词输入。可以是以下类型:
- 单个序列:PreTokenizedInputSequence
- 一对序列
- PreTokenizedInputSequence 的元组
- 或大小为 2 的 PreTokenizedInputSequence 列表
Union[List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]]
的别名。
EncodeInput[[[ tokenizers.EncodeInput ]]]
tokenizers.EncodeInput
表示所有可能的编码输入类型。可以是
- 当
is_pretokenized=False
时:TextEncodeInput - 当
is_pretokenized=True
时:PreTokenizedEncodeInput
Union[str, Tuple[str, str], List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]]
的别名。