LLM 课程文档

导论

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

导论

Ask a Question

第 3 章中,我们了解了如何针对给定任务微调模型。当我们这样做时,我们使用模型预训练时使用的相同分词器——但是当我们想要从头开始训练模型时,我们该怎么办? 在这些情况下,使用在来自另一个领域或语言的语料库上预训练的分词器通常不是最佳选择。例如,在英语语料库上训练的分词器在日语文本语料库上的表现会很差,因为这两种语言中空格和标点符号的使用非常不同。

在本章中,您将学习如何在文本语料库上训练一个全新的分词器,以便随后可以将其用于预训练语言模型。 这将全部在 🤗 Tokenizers 库的帮助下完成,该库在 🤗 Transformers 库中提供了“快速”分词器。我们将仔细研究该库提供的功能,并探讨快速分词器与“慢速”版本有何不同。

我们将涵盖的主题包括

  • 如何在新文本语料库上训练类似于给定检查点使用的分词器的新分词器
  • 快速分词器的特殊功能
  • 当今 NLP 中使用的三种主要子词分词算法之间的差异
  • 如何使用 🤗 Tokenizers 库从头开始构建分词器并在某些数据上对其进行训练

本章介绍的技术将为您在第 7 章中创建 Python 源代码语言模型的部分做好准备。 让我们首先了解“训练”分词器首先意味着什么。

< > 更新 在 GitHub 上