LLM 课程文档

引言

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

简介

Ask a Question

第 3 章中,我们探讨了如何针对特定任务微调模型。在微调时,我们使用模型预训练时使用的相同分词器——但是当我们想从头开始训练模型时该怎么办呢?在这些情况下,使用在来自其他领域或语言的语料库上预训练的分词器通常不是最佳选择。例如,在英语语料库上训练的分词器在日语文本语料库上表现会很差,因为这两种语言在空格和标点符号的使用上差异很大。

在本章中,您将学习如何在一个文本语料库上训练一个全新的分词器,以便将其用于预训练语言模型。这将通过🤗 Tokenizers库来完成,该库提供了🤗 Transformers库中的“快速”分词器。我们将仔细研究该库提供的功能,并探讨快速分词器与“慢速”版本有何不同。

我们将涵盖的主题包括:

  • 如何在新的文本语料库上训练类似于给定检查点使用的分词器
  • 快速分词器的特殊功能
  • 当今自然语言处理中使用的三种主要子词分词算法之间的差异
  • 如何使用 🤗 Tokenizers 库从头开始构建分词器并在某些数据上进行训练

本章介绍的技术将为您在第 7 章中探讨为 Python 源代码创建语言模型的部分做好准备。让我们首先看看“训练”分词器到底意味着什么。

< > 在 GitHub 上更新