导论

在第 3 章中，我们了解了如何针对给定任务微调模型。当我们这样做时，我们使用模型预训练时使用的相同分词器——但是当我们想要从头开始训练模型时，我们该怎么办？在这些情况下，使用在来自另一个领域或语言的语料库上预训练的分词器通常不是最佳选择。例如，在英语语料库上训练的分词器在日语文本语料库上的表现会很差，因为这两种语言中空格和标点符号的使用非常不同。

在本章中，您将学习如何在文本语料库上训练一个全新的分词器，以便随后可以将其用于预训练语言模型。这将全部在 🤗 Tokenizers 库的帮助下完成，该库在 🤗 Transformers 库中提供了“快速”分词器。我们将仔细研究该库提供的功能，并探讨快速分词器与“慢速”版本有何不同。

我们将涵盖的主题包括

如何在新文本语料库上训练类似于给定检查点使用的分词器的新分词器
快速分词器的特殊功能
当今 NLP 中使用的三种主要子词分词算法之间的差异
如何使用 🤗 Tokenizers 库从头开始构建分词器并在某些数据上对其进行训练

本章介绍的技术将为您在第 7 章中创建 Python 源代码语言模型的部分做好准备。让我们首先了解“训练”分词器首先意味着什么。

< > 更新在 GitHub 上

LLM 课程

导论