分词器文档
模型
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
模型
Python
Rust
Node
BPE
class tokenizers.models.BPE
( vocab = None merges = None cache_capacity = None dropout = None unk_token = None continuing_subword_prefix = None end_of_word_suffix = None fuse_unk = None byte_fallback = False ignore_merges = False )
参数
- vocab (
Dict[str, int]
, 可选) — 一个字符串键及其 ID 的字典,例如{"am": 0,...}
- merges (
List[Tuple[str, str]]
, 可选) — 一个词元对 (Tuple[str, str]
) 的列表,例如[("a", "b"),...]
- cache_capacity (
int
, 可选) — BPE 缓存可以包含的单词数量。缓存通过保留一定数量单词的合并操作结果来加速处理过程。 - dropout (
float
, 可选) — 一个介于 0 和 1 之间的浮点数,表示要使用的 BPE dropout。 - unk_token (
str
, 可选) — 模型使用的未知词元。 - continuing_subword_prefix (
str
, 可选) — 附加到不表示单词开头的子词单元的前缀。 - end_of_word_suffix (
str
, 可选) — 附加到表示单词结尾的子词单元的后缀。 - fuse_unk (
bool
, 可选) — 是否将任何连续的未知词元合并成一个。 - byte_fallback (
bool
, 可选) — 是否使用 spm 字节回退技巧(默认为 False) - ignore_merges (
bool
, 可选) — 是否在应用合并规则前先将词元与词汇表匹配。
BPE(字节对编码)算法的实现
Model
所有模型的基类
模型代表实际的分词算法。这部分将包含和管理学习到的词汇表。
此类不能直接构造。请使用具体的模型之一。
Unigram
WordLevel
WordLevel 算法的实现
最简单的分词器模型,基于将词元映射到其对应 ID。