分词器文档

编码输入

Hugging Face's logo
加入 Hugging Face 社区

并获取增强型文档体验

开始使用

编码输入

Python
Rust
Node

这些类型代表了 分词器 在使用 encode_batch() 时接受的所有不同类型的输入。

TextEncodeInput

tokenizers.TextEncodeInput

表示用于编码的文本输入。可以是以下之一:

Union[str, Tuple[str, str], List[str]] 的别名。

PreTokenizedEncodeInput

tokenizers.PreTokenizedEncodeInput

表示用于编码的预分词输入。可以是以下之一:

Union[List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]] 的别名。

EncodeInput

tokenizers.EncodeInput

表示用于编码的所有可能的输入类型。可以是以下之一:

Union[str, Tuple[str, str], List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]] 的别名。