Tokenizers 文档

编码输入

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

编码输入

Python
Rust
Node

这些类型代表了 Tokenizer 在使用 encode_batch() 时接受的所有不同类型的输入。

TextEncodeInput[[[ tokenizers.TextEncodeInput ]]]

tokenizers.TextEncodeInput

表示用于编码的文本输入。可以是以下类型:

Union[str, Tuple[str, str], List[str]] 的别名。

PreTokenizedEncodeInput[[[ tokenizers.PreTokenizedEncodeInput ]]]

tokenizers.PreTokenizedEncodeInput

表示用于编码的预分词输入。可以是以下类型:

Union[List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]] 的别名。

EncodeInput[[[ tokenizers.EncodeInput ]]]

tokenizers.EncodeInput

表示所有可能的编码输入类型。可以是

Union[str, Tuple[str, str], List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]] 的别名。

< > 在 GitHub 上更新