分词器文档

输入序列

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

输入序列

Python
Rust
Node

这些类型表示可以用作分词器输入的所有不同类型的序列。总体而言,任何序列可以是字符串或字符串列表,具体取决于分词器的操作模式:原始文本预分词

TextInputSequence

tokenizers.TextInputSequence

表示输入序列的str

PreTokenizedInputSequence

tokenizers.PreTokenizedInputSequence

预分词的输入序列。可以是以下之一

  • strList
  • strTuple

Union[List[str], Tuple[str]] 的别名。

InputSequence

tokenizers.InputSequence

表示编码所有可能的输入序列类型。可以是

Union[str, List[str], Tuple[str]] 的别名。