LLM 课程文档
导论
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
导论
正如你在第 1 章中看到的,Transformer 模型通常非常庞大。拥有数百万到数百亿的参数,训练和部署这些模型是一项复杂的任务。此外,随着每天都有新模型发布,并且每个模型都有自己的实现,尝试所有模型并非易事。
创建 🤗 Transformers 库是为了解决这个问题。其目标是提供一个统一的 API,通过该 API 可以加载、训练和保存任何 Transformer 模型。该库的主要特点是
- 易于使用:只需两行代码即可完成下载、加载和使用最先进的 NLP 模型进行推理。
- 灵活性:在其核心,所有模型都是简单的 PyTorch
nn.Module
或 TensorFlowtf.keras.Model
类,并且可以像其各自的机器学习 (ML) 框架中的任何其他模型一样进行处理。 - 简洁性:几乎没有对整个库进行抽象。“All in one file”(全部放在一个文件中)是核心概念:模型的正向传递完全在一个文件中定义,因此代码本身是可理解和可修改的。
最后一个特点使 🤗 Transformers 与其他 ML 库截然不同。这些模型不是建立在跨文件共享的模块之上;相反,每个模型都有自己的层。除了使模型更易于接近和理解之外,这还使你可以轻松地在一个模型上进行实验,而不会影响其他模型。
本章将从一个端到端的示例开始,在该示例中,我们将模型和分词器一起使用,以复制第 1 章中介绍的 pipeline()
函数。接下来,我们将讨论模型 API:我们将深入研究模型和配置类,并向你展示如何加载模型以及模型如何处理数值输入以输出预测。
然后,我们将研究分词器 API,它是 pipeline()
函数的另一个主要组成部分。分词器负责第一个和最后一个处理步骤,处理从文本到神经网络的数值输入的转换,以及在需要时转换回文本。最后,我们将向你展示如何在准备好的批次中通过模型发送多个句子,然后通过更仔细地查看高级 tokenizer()
函数来总结所有内容。
⚠️ 为了充分利用 Model Hub 和 🤗 Transformers 提供的所有功能,我们建议创建一个帐户。
< > 在 GitHub 上更新