训练器

Python

Rust

Node

BpeTrainer

class tokenizers.trainers.BpeTrainer

( )

参数

vocab_size (int, 可选) — 最终词汇表的大小，包括所有 tokens 和字母表。
min_frequency (int, 可选) — 一对词需要被合并的最小频率。
show_progress (bool, 可选) — 训练时是否显示进度条。
special_tokens (List[Union[str, AddedToken]], 可选) — 模型应识别的特殊 tokens 列表。
limit_alphabet (int, 可选) — 字母表中要保留的最大不同字符数。
initial_alphabet (List[str], 可选) — 要包含在初始字母表中的字符列表，即使在训练数据集中未出现。如果字符串包含多个字符，则仅保留第一个字符。
continuing_subword_prefix (str, 可选) — 用于每个非词首子词的前缀。
end_of_word_suffix (str, 可选) — 用于每个词尾子词的后缀。
max_token_length (int, 可选) — 阻止创建长度超过指定大小的 tokens。这可以帮助减少使用高度重复的 tokens（如维基百科的 ======）污染词汇表

能够训练 BPE 模型的训练器

UnigramTrainer

class tokenizers.trainers.UnigramTrainer

( vocab_size = 8000 show_progress = True special_tokens = [] shrinking_factor = 0.75 unk_token = None max_piece_length = 16 n_sub_iterations = 2 )

参数

vocab_size (int) — 最终词汇表的大小，包括所有 tokens 和字母表。
show_progress (bool) — 训练时是否显示进度条。
special_tokens (List[Union[str, AddedToken]]) — 模型应识别的特殊 tokens 列表。
initial_alphabet (List[str]) — 要包含在初始字母表中的字符列表，即使在训练数据集中未出现。如果字符串包含多个字符，则仅保留第一个字符。
shrinking_factor (float) — 在训练的每个步骤中用于修剪词汇表的收缩因子。
unk_token (str) — 用于词汇表外 tokens 的 token。
max_piece_length (int) — 给定 token 的最大长度。
n_sub_iterations (int) — 在修剪词汇表之前执行 EM 算法的迭代次数。

能够训练 Unigram 模型的训练器

WordLevelTrainer

class tokenizers.trainers.WordLevelTrainer

( )

参数

vocab_size (int, 可选) — 最终词汇表的大小，包括所有 tokens 和字母表。
min_frequency (int, 可选) — 一对词需要被合并的最小频率。
show_progress (bool, 可选) — 训练时是否显示进度条。
special_tokens (List[Union[str, AddedToken]]) — 模型应识别的特殊 tokens 列表。

能够训练 WorldLevel 模型的训练器

WordPiece训练器

class tokenizers.trainers.WordPiece训练器

( vocab_size = 30000 min_frequency = 0 show_progress = True special_tokens = [] limit_alphabet = None initial_alphabet = [] continuing_subword_prefix = '##' end_of_word_suffix = None )

参数

vocab_size (int, 可选) — 最终词汇表的大小，包括所有tokens和字母表。
min_frequency (int, 可选) — 一对词语要被合并所需的最小频率。
show_progress (bool, 可选) — 训练时是否显示进度条。
special_tokens (List[Union[str, AddedToken]], 可选) — 模型应识别的特殊 tokens 列表。
limit_alphabet (int, 可选) — 字母表中保留的最大不同字符数。
initial_alphabet (List[str], 可选) — 要包含在初始字母表中的字符列表，即使在训练数据集中未出现。如果字符串包含多个字符，则仅保留第一个字符。
continuing_subword_prefix (str, 可选) — 用于每个非词首子词的前缀。
end_of_word_suffix (str, 可选) — 用于每个词尾子词的后缀。

能够训练 WordPiece 模型的训练器

< > 更新 on GitHub

分词器

训练器