Tokenizers 文档
输入序列
加入 Hugging Face 社区
并获得增强的文档体验
开始入门
输入序列
Python
Rust
Node
这些类型代表了所有可以用作 Tokenizer 输入的不同类型的序列。总体而言,根据 tokenizer 的操作模式:原始文本
vs 预分词
,任何序列可以是字符串或字符串列表。
TextInputSequence
tokenizers.TextInputSequence
一个 str
,表示输入序列
PreTokenizedInputSequence
tokenizers.PreTokenizedInputSequence
一个预分词的输入序列。可以是以下类型之一
str
的List
str
的Tuple
Union[List[str], Tuple[str]]
的别名。
InputSequence
tokenizers.InputSequence
表示所有可能的编码输入序列类型。可以是
- 当
is_pretokenized=False
时: TextInputSequence - 当
is_pretokenized=True
时: PreTokenizedInputSequence
Union[str, List[str], Tuple[str]]
的别名。