分词器文档

输入序列

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

输入序列

Python
Rust
Node

这些类型代表了所有可以作为分词器输入的不同种类的序列。总的来说,根据分词器的操作模式(原始文本 vs 预分词),任何序列都可以是字符串或字符串列表。

TextInputSequence

tokenizers.TextInputSequence

表示输入序列的 str

PreTokenizedInputSequence

tokenizers.PreTokenizedInputSequence

预分词的输入序列。可以是以下之一:

  • strList
  • strTuple

Union[List[str], Tuple[str]] 的别名。

InputSequence

tokenizers.InputSequence

表示用于编码的所有可能输入序列类型。可以是:

Union[str, List[str], Tuple[str]] 的别名。

< > 在 GitHub 上更新