导论

正如你在第 1 章中看到的，Transformer 模型通常非常庞大。拥有数百万到数百亿的参数，训练和部署这些模型是一项复杂的任务。此外，随着每天都有新模型发布，并且每个模型都有自己的实现，尝试所有模型并非易事。

创建 🤗 Transformers 库是为了解决这个问题。其目标是提供一个统一的 API，通过该 API 可以加载、训练和保存任何 Transformer 模型。该库的主要特点是

易于使用：只需两行代码即可完成下载、加载和使用最先进的 NLP 模型进行推理。
灵活性：在其核心，所有模型都是简单的 PyTorch nn.Module 或 TensorFlow tf.keras.Model 类，并且可以像其各自的机器学习 (ML) 框架中的任何其他模型一样进行处理。
简洁性：几乎没有对整个库进行抽象。“All in one file”（全部放在一个文件中）是核心概念：模型的正向传递完全在一个文件中定义，因此代码本身是可理解和可修改的。

最后一个特点使 🤗 Transformers 与其他 ML 库截然不同。这些模型不是建立在跨文件共享的模块之上；相反，每个模型都有自己的层。除了使模型更易于接近和理解之外，这还使你可以轻松地在一个模型上进行实验，而不会影响其他模型。

本章将从一个端到端的示例开始，在该示例中，我们将模型和分词器一起使用，以复制第 1 章中介绍的 pipeline() 函数。接下来，我们将讨论模型 API：我们将深入研究模型和配置类，并向你展示如何加载模型以及模型如何处理数值输入以输出预测。

然后，我们将研究分词器 API，它是 pipeline() 函数的另一个主要组成部分。分词器负责第一个和最后一个处理步骤，处理从文本到神经网络的数值输入的转换，以及在需要时转换回文本。最后，我们将向你展示如何在准备好的批次中通过模型发送多个句子，然后通过更仔细地查看高级 tokenizer() 函数来总结所有内容。

⚠️ 为了充分利用 Model Hub 和 🤗 Transformers 提供的所有功能，我们建议创建一个帐户。

< > 在 GitHub 上更新

LLM 课程

导论