分词器
加入 Hugging Face 社区
并获得增强的文档体验
解码器
BPEDecoder
class tokenizers.decoders.BPEDecoder
( suffix = '</w>' )
参数
- suffix (
str
, 可选, 默认为 </w>
) — 用于标识单词结尾的后缀。在解码过程中,此后缀将被替换为空格。
BPEDecoder 解码器
ByteLevel
CTC
class tokenizers.decoders.CTC
( pad_token = '<pad>' word_delimiter_token = '|' cleanup = True )
参数
- pad_token (
str
, 可选, 默认为 <pad>
) — CTC 用来界定新词符的填充词符。 - word_delimiter_token (
str
, 可选, 默认为 |
) — 单词分隔符。它将被替换为空格 - cleanup (
bool
, 可选, 默认为 True
) — 是否清理一些分词过程中的残留。主要是标点符号前的空格和一些英语缩写形式。
CTC 解码器
Metaspace
class tokenizers.decoders.Metaspace
( )
参数
- replacement (
str
, 可选, 默认为
) — 替换字符。必须是单个字符。默认使用元符号 (U+2581)(与 SentencePiece 中相同)。 - prepend_scheme (
str
, 可选, 默认为 "always"
) — 是否在第一个单词前添加空格(如果尚不存在)。这使我们能够像处理 say hello 一样处理 hello。可选值:“always”、“never”、“first”。“first” 意味着仅在第一个词符前添加空格(当使用特殊词符或其他预分词器时,此选项很有用)。
Metaspace 解码器
WordPiece
class tokenizers.decoders.WordPiece
( prefix = '##' cleanup = True )
参数
- prefix (
str
, 可选, 默认为 ##
) — 用于非单词开头的子词的前缀。 - cleanup (
bool
, 可选, 默认为 True
) — 是否清理一些分词过程中的残留。主要是标点符号前的空格和一些英语缩写形式。
WordPiece 解码器
< > 在 GitHub 上更新
© . This site is unofficial and not affiliated with Hugging Face, Inc.