Tokenizers 文档

解码器

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始使用

解码器

Python
Rust
Node

BPEDecoder

class tokenizers.decoders.BPEDecoder

( suffix = '</w>' )

参数

  • suffix (str, 可选, 默认为 </w>) — 用于表征词尾的后缀。此后缀将在解码过程中被空格替换

BPEDecoder 解码器

ByteLevel

class tokenizers.decoders.ByteLevel

( )

ByteLevel 解码器

此解码器应与 ByteLevel PreTokenizer 预分词器结合使用。

CTC

class tokenizers.decoders.CTC

( pad_token = '<pad>' word_delimiter_token = '|' cleanup = True )

参数

  • pad_token (str, 可选, 默认为 <pad>) — CTC 使用的 pad token,用于分隔新的 token。
  • word_delimiter_token (str, 可选, 默认为 |) — 单词分隔符 token。它将被替换为空格
  • cleanup (bool, 可选, 默认为 True) — 是否清理一些分词artifacts。主要为空格在标点符号之前,以及一些英语缩写形式。

CTC 解码器

Metaspace

class tokenizers.decoders.Metaspace

( )

参数

  • replacement (str, 可选, 默认为 ) — 替换字符。必须恰好为一个字符。默认情况下,我们使用 (U+2581) 元符号(与 SentencePiece 中相同)。
  • prepend_scheme (str, 可选, 默认为 "always") — 是否在第一个单词前添加空格(如果尚不存在)。这使我们可以像处理 say hello 一样处理 hello。选项:“always”、“never”、“first”。First 表示仅在第一个 token 上添加空格(当使用特殊 token 或其他 pre_tokenizer 时相关)。

Metaspace 解码器

WordPiece

class tokenizers.decoders.WordPiece

( prefix = '##' cleanup = True )

参数

  • prefix (str, 可选, 默认为 ##) — 用于非词首子词的前缀
  • cleanup (bool, 可选, 默认为 True) — 是否清理一些分词artifacts。主要为空格在标点符号之前,以及一些英语缩写形式。

WordPiece 解码器

< > 在 GitHub 上更新