Tokenizers 文档

输入序列

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始入门

输入序列

Python
Rust
Node

这些类型代表了所有可以用作 Tokenizer 输入的不同类型的序列。总体而言,根据 tokenizer 的操作模式:原始文本 vs 预分词,任何序列可以是字符串或字符串列表。

TextInputSequence

tokenizers.TextInputSequence

一个 str,表示输入序列

PreTokenizedInputSequence

tokenizers.PreTokenizedInputSequence

一个预分词的输入序列。可以是以下类型之一

  • strList
  • strTuple

Union[List[str], Tuple[str]] 的别名。

InputSequence

tokenizers.InputSequence

表示所有可能的编码输入序列类型。可以是

Union[str, List[str], Tuple[str]] 的别名。

< > 在 GitHub 上更新