模型
Python
Rust
Node
BPE
类名 tokenizers.models.BPE
( vocab = None merges = None cache_capacity = None dropout = None unk_token = None continuing_subword_prefix = None end_of_word_suffix = None fuse_unk = None byte_fallback = False )
参数
- vocab (
Dict[str, int]
, 可选) — 一组字符串键和其ID的字典{"am": 0,...}
- merges (
List[Tuple[str, str]]
, 可选) — 一组标记配对列表(_tuple[str, str]
)[("a", "b"),...]
- cache_capacity (
int
, 可选) — BPE 缓存可以包含的单词数量。缓存通过保留合并操作的中间结果来加速处理过程。 - dropout (
float
, 可选) — 表示要使用的 BPE dropout 的 float 值,介于 0 和 1 之间。 - unk_token (
str
, 可选) — 模型将使用的未知标记。 - continuing_subword_prefix (
str
, 可选) — 添加给不代表单词开头的子词单元的前缀。 - end_of_word_suffix (
str
, 可选) — 添加给代表单词结尾的子词单元的后缀。 - fuse_unk (
bool
, 可选) — 是否将任何后续的未知标记融合成单个标记。 - byte_fallback (
bool
, 可选) — 是否使用 spm 字节回退技巧(默认为 False)
BPE (字节对编码)算法的一个实现
模型
所有模型的基础类
模型表示实际的分词算法。这是包含和管理已学习词汇的部分。
该类不能直接构造。请使用其中一种具体模型。
Unigram
WordLevel
WordLevel算法的实现
最简单的基于将标记映射到其相应id的标记器模型