分词器文档

训练器

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

训练器

Python
Rust
Node

BpeTrainer

class tokenizers.trainers.BpeTrainer

( )

参数

  • vocab_size (int, optional) — 最终词汇表的大小,包括所有词元和字母表。
  • min_frequency (int, optional) — 一个词对被合并所需的最小频率。
  • show_progress (bool, optional) — 是否在训练时显示进度条。
  • special_tokens (List[Union[str, AddedToken]], optional) — 模型应知晓的特殊词元列表。
  • limit_alphabet (int, optional) — 字母表中保留的最大不同字符数。
  • initial_alphabet (List[str], optional) — 初始字母表中应包含的字符列表,即使训练数据集中未出现。如果字符串包含多个字符,则只保留第一个。
  • continuing_subword_prefix (str, optional) — 用于每个非词首子词的前缀。
  • end_of_word_suffix (str, optional) — 用于每个词尾子词的后缀。
  • max_token_length (int, optional) — 防止创建超过指定长度的词元。这有助于减少词汇表中像维基百科中的 ====== 这样的高重复性词元的污染。

能够训练 BPE 模型的训练器

UnigramTrainer

class tokenizers.trainers.UnigramTrainer

( vocab_size = 8000 show_progress = True special_tokens = [] shrinking_factor = 0.75 unk_token = None max_piece_length = 16 n_sub_iterations = 2 )

参数

  • vocab_size (int) — 最终词汇表的大小,包括所有词元和字母表。
  • show_progress (bool) — 是否在训练时显示进度条。
  • special_tokens (List[Union[str, AddedToken]]) — 模型应知晓的特殊词元列表。
  • initial_alphabet (List[str]) — 初始字母表中应包含的字符列表,即使训练数据集中未出现。如果字符串包含多个字符,则只保留第一个。
  • shrinking_factor (float) — 在训练的每个步骤中用于修剪词汇表的缩减因子。
  • unk_token (str) — 用于词汇表外(OOV)词元的词元。
  • max_piece_length (int) — 给定词元的最大长度。
  • n_sub_iterations (int) — 在修剪词汇表之前执行的 EM 算法的迭代次数。

能够训练 Unigram 模型的训练器

WordLevelTrainer

class tokenizers.trainers.WordLevelTrainer

( )

参数

  • vocab_size (int, optional) — 最终词汇表的大小,包括所有词元和字母表。
  • min_frequency (int, optional) — 一个词对被合并所需的最小频率。
  • show_progress (bool, optional) — 是否在训练时显示进度条。
  • special_tokens (List[Union[str, AddedToken]]) — 模型应知晓的特殊词元列表。

能够训练 WorldLevel 模型的训练器

WordPieceTrainer

class tokenizers.trainers.WordPieceTrainer

( vocab_size = 30000 min_frequency = 0 show_progress = True special_tokens = [] limit_alphabet = None initial_alphabet = [] continuing_subword_prefix = '##' end_of_word_suffix = None )

参数

  • vocab_size (int, optional) — 最终词汇表的大小,包括所有词元和字母表。
  • min_frequency (int, optional) — 一个词对被合并所需的最小频率。
  • show_progress (bool, optional) — 是否在训练时显示进度条。
  • special_tokens (List[Union[str, AddedToken]], optional) — 模型应知晓的特殊词元列表。
  • limit_alphabet (int, optional) — 字母表中保留的最大不同字符数。
  • initial_alphabet (List[str], optional) — 初始字母表中应包含的字符列表,即使训练数据集中未出现。如果字符串包含多个字符,则只保留第一个。
  • continuing_subword_prefix (str, optional) — 用于每个非词首子词的前缀。
  • end_of_word_suffix (str, optional) — 用于每个词尾子词的后缀。

能够训练 WordPiece 模型的训练器

< > 在 GitHub 上更新