分词器文档
输入序列
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
输入序列
Python
Rust
Node
这些类型代表了所有可以作为分词器输入的不同种类的序列。总的来说,根据分词器的操作模式(原始文本
vs 预分词
),任何序列都可以是字符串或字符串列表。
TextInputSequence
tokenizers.TextInputSequence
表示输入序列的 str
PreTokenizedInputSequence
tokenizers.PreTokenizedInputSequence
预分词的输入序列。可以是以下之一:
str
的List
str
的Tuple
Union[List[str], Tuple[str]]
的别名。
InputSequence
tokenizers.InputSequence
表示用于编码的所有可能输入序列类型。可以是:
- 当
is_pretokenized=False
时:TextInputSequence - 当
is_pretokenized=True
时:PreTokenizedInputSequence
Union[str, List[str], Tuple[str]]
的别名。