简介
在 第三章 中,我们研究了如何在给定任务上微调模型。当我们这样做时,我们使用与模型预训练时相同的分词器 - 但是当我们想从头开始训练模型时该怎么办? 在这些情况下,使用在另一个领域或语言的语料库上预训练的分词器通常不是最佳选择。 例如,在英语语料库上训练的分词器在日语文本语料库上表现不佳,因为两种语言中空格和标点的使用方式截然不同。
在本节中,您将学习如何在文本语料库上训练全新的分词器,以便它可以用于预训练语言模型。 所有这些都将在 🤗 分词器 库的帮助下完成,该库提供了 🤗 变压器 库中的“快速”分词器。 我们将仔细研究该库提供的功能,并探讨快速分词器与“慢速”版本的不同之处。
我们将涵盖以下主题
- 如何在新的文本语料库上训练与给定检查点使用的分词器类似的全新分词器
- 快速分词器的特殊功能
- 当今 NLP 中使用的三种主要子词分词算法之间的差异
- 如何使用 🤗 分词器库从头开始构建分词器并在某些数据上进行训练
本节中介绍的技术将为您在 第七章 中查看为 Python 源代码创建语言模型的部分做好准备。 让我们从了解首先“训练”分词器的含义开始。