Tokenizers 文档
模型
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
模型
Python
Rust
Node
BPE
class tokenizers.models.BPE
( vocab = None merges = None cache_capacity = None dropout = None unk_token = None continuing_subword_prefix = None end_of_word_suffix = None fuse_unk = None byte_fallback = False ignore_merges = False )
参数
- vocab (
Dict[str, int]
, 可选) — 字符串键及其 ID 的字典{"am": 0,...}
- merges (
List[Tuple[str, str]]
, 可选) — Token 对 (Tuple[str, str]
) 列表[("a", "b"),...]
- cache_capacity (
int
, 可选) — BPE 缓存可以包含的单词数量。缓存允许通过保留一些单词的合并操作结果来加速处理过程。 - dropout (
float
, 可选) — 介于 0 和 1 之间的浮点数,表示要使用的 BPE dropout。 - unk_token (
str
, 可选) — 模型使用的未知 token。 - continuing_subword_prefix (
str
, 可选) — 要附加到不代表单词开头的子词单元的前缀。 - end_of_word_suffix (
str
, 可选) — 要附加到代表单词结尾的子词单元的后缀。 - fuse_unk (
bool
, 可选) — 是否将任何后续的未知 token 融合为单个 token - byte_fallback (
bool
, 可选) — 是否使用 spm 字节回退技巧(默认为 False) - ignore_merges (
bool
, 可选) — 是否在合并之前匹配带有词汇表的 token。
BPE(字节对编码)算法的实现
模型
所有模型的基础类
模型表示实际的分词算法。这是包含和管理已学习词汇表的部分。
此类不能直接构造。请使用具体的模型之一。
获取与 token 关联的 ID
Unigram
WordLevel
WordLevel 算法的一种实现
最简单的分词器模型,基于将 token 映射到其对应的 ID。