类 tokenizers.decoders.CTC
( pad_token = '<pad>' word_delimiter_token = '|' cleanup = True )
参数
- pad_token (
str
, 可选,默认为 <pad>
) — CTC 用于分隔新 Token 的填充 Token。
- word_delimiter_token (
str
, 可选,默认为 |
) — 词分隔符 Token。它将被空格替换
- cleanup (
bool
,可选,默认为 True
) — 是否清理一些分词伪影。主要是标点符号前的空格,以及一些缩写的英文形式。