分词器
加入 Hugging Face 社区
并获得增强的文档体验
解码器
BPEDecoder
class tokenizers.decoders.BPEDecoder
( suffix = '</w>' )
参数
- suffix (
str, 可选, 默认为 </w>) — 用于标识单词结尾的后缀。在解码过程中,此后缀将被替换为空格。
BPEDecoder 解码器
ByteLevel
CTC
class tokenizers.decoders.CTC
( pad_token = '<pad>' word_delimiter_token = '|' cleanup = True )
参数
- pad_token (
str, 可选, 默认为 <pad>) — CTC 用来界定新词符的填充词符。 - word_delimiter_token (
str, 可选, 默认为 |) — 单词分隔符。它将被替换为空格 - cleanup (
bool, 可选, 默认为 True) — 是否清理一些分词过程中的残留。主要是标点符号前的空格和一些英语缩写形式。
CTC 解码器
Metaspace
class tokenizers.decoders.Metaspace
( )
参数
- replacement (
str, 可选, 默认为 ) — 替换字符。必须是单个字符。默认使用元符号 (U+2581)(与 SentencePiece 中相同)。 - prepend_scheme (
str, 可选, 默认为 "always") — 是否在第一个单词前添加空格(如果尚不存在)。这使我们能够像处理 say hello 一样处理 hello。可选值:“always”、“never”、“first”。“first” 意味着仅在第一个词符前添加空格(当使用特殊词符或其他预分词器时,此选项很有用)。
Metaspace 解码器
WordPiece
class tokenizers.decoders.WordPiece
( prefix = '##' cleanup = True )
参数
- prefix (
str, 可选, 默认为 ##) — 用于非单词开头的子词的前缀。 - cleanup (
bool, 可选, 默认为 True) — 是否清理一些分词过程中的残留。主要是标点符号前的空格和一些英语缩写形式。
WordPiece 解码器
< > 在 GitHub 上更新
© . This site is unofficial and not affiliated with Hugging Face, Inc.