分词器文档

解码器

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始

解码器

Python
Rust
Node

BPEDecoder

tokenizers.decoders.BPEDecoder

( suffix = '</w>' )

参数

  • suffix (str, 可选,默认为 </w>) — 用于表征词尾的后缀。在解码过程中,此后缀将被空格替换

BPEDecoder 解码器

ByteLevel

tokenizers.decoders.ByteLevel

( )

ByteLevel 解码器

此解码器与 ByteLevel 预分词器 配合使用。

CTC

tokenizers.decoders.CTC

( pad_token = '<pad>' word_delimiter_token = '|' cleanup = True )

参数

  • pad_token (str, 可选,默认为 <pad>) — CTC 用于分隔新 Token 的填充 Token。
  • word_delimiter_token (str, 可选,默认为 |) — 词分隔符 Token。它将被空格替换
  • cleanup (bool可选,默认为 True) — 是否清理一些分词伪影。主要是标点符号前的空格,以及一些缩写的英文形式。

CTC 解码器

元空间

tokenizers.decoders.Metaspace

( )

参数

  • replacement (str可选,默认为 ) — 替换字符。必须恰好是一个字符。默认情况下,我们使用 (U+2581) 元符号(与 SentencePiece 中相同)。
  • add_prefix_space (bool可选,默认为 True) — 如果第一个单词前面没有空格,是否添加一个空格。这让我们可以像对待say hello一样对待hello

元空间解码器

WordPiece

tokenizers.decoders.WordPiece

( prefix = '##' cleanup = True )

参数

  • prefix (str可选,默认为 ##) — 用于非词首子词的前缀
  • cleanup (bool可选,默认为 True) — 是否清理一些分词伪影。主要是标点符号前的空格,以及一些缩写的英文形式。

WordPiece 解码器