LLM 课程文档

总结

LLM 课程

0. 环境配置

1. Transformer 模型

简介自然语言处理与大语言模型 Transformer 模型能做什么？Transformer 模型的工作原理 🤗 Transformers 如何解决任务 Transformer 模型架构快速测验使用 LLM 进行推理偏见与局限性总结认证考试

2. 使用 🤗 Transformers

3. 微调预训练模型

4. 共享模型和分词器

5. 🤗 Datasets 库

6. 🤗 Tokenizers 库

7. 经典的 NLP 任务

8. 如何寻求帮助

9. 构建和共享演示

10. 策划高质量数据集

11. 微调大型语言模型

12. 构建推理模型新

课程活动

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

总结

在本章中，你已经了解了 Transformer 模型、大语言模型（LLM）的基础知识，以及它们如何彻底改变人工智能及其他领域。

涵盖的关键概念

自然语言处理与大语言模型

我们探讨了什么是 NLP 以及大语言模型如何改变了该领域。你学到了：

NLP 涵盖了从分类到生成的广泛任务
LLM 是在海量文本数据上训练的强大模型
这些模型可以在单一架构内执行多项任务
尽管能力强大，但 LLM 也存在局限性，包括幻觉和偏见

Transformer 模型的能力

你了解了 🤗 Transformers 的 pipeline() 函数如何让你轻松使用预训练模型来完成各种任务：

文本分类、词元分类和问答
文本生成和摘要
翻译和其他序列到序列任务
语音识别和图像分类

Transformer 模型架构

我们从宏观层面讨论了 Transformer 模型的工作原理，包括：

注意力机制的重要性
迁移学习如何使模型能够适应特定任务
三种主要的架构变体：仅编码器、仅解码器和编码器-解码器

模型架构及其应用

本章的一个关键方面是理解如何为不同任务选择合适的架构：

模型	示例	任务
仅编码器	BERT, DistilBERT, ModernBERT	句子分类、命名实体识别、抽取式问答
仅解码器	GPT, LLaMA, Gemma, SmolLM	文本生成、对话式人工智能、创意写作
编码器-解码器	BART, T5, Marian, mBART	摘要、翻译、生成式问答

现代 LLM 的发展

你还了解了该领域的最新进展：

LLM 的规模和能力如何随时间增长
缩放法则（Scaling laws）的概念及其如何指导模型开发
帮助模型处理更长序列的专门注意力机制
预训练和指令微调的两阶段训练方法

实际应用

在整个章节中，你已经看到了如何将这些模型应用于现实世界的问题：

使用 Hugging Face Hub 查找和使用预训练模型
利用推理 API 直接在浏览器中测试模型
了解哪些模型最适合特定任务

展望未来

现在你对 Transformer 模型是什么以及它们在宏观层面的工作原理有了扎实的理解，你已经准备好深入学习如何有效地使用它们。在接下来的章节中，你将学习如何：

使用 Transformers 库加载和微调模型
处理不同类型的数据作为模型输入
使预训练模型适应你的特定任务
为实际应用部署模型

你在本章中建立的基础将为你探索后续章节中更高级的主题和技术提供坚实的支持。

< > 在 GitHub 上更新

←偏见与局限性认证考试→