LLM 课程文档

总结

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

总结

Ask a Question

在本章中,你已经了解了 Transformer 模型、大语言模型(LLM)的基础知识,以及它们如何彻底改变人工智能及其他领域。

涵盖的关键概念

自然语言处理与大语言模型

我们探讨了什么是 NLP 以及大语言模型如何改变了该领域。你学到了:

  • NLP 涵盖了从分类到生成的广泛任务
  • LLM 是在海量文本数据上训练的强大模型
  • 这些模型可以在单一架构内执行多项任务
  • 尽管能力强大,但 LLM 也存在局限性,包括幻觉和偏见

Transformer 模型的能力

你了解了 🤗 Transformers 的 pipeline() 函数如何让你轻松使用预训练模型来完成各种任务:

  • 文本分类、词元分类和问答
  • 文本生成和摘要
  • 翻译和其他序列到序列任务
  • 语音识别和图像分类

Transformer 模型架构

我们从宏观层面讨论了 Transformer 模型的工作原理,包括:

  • 注意力机制的重要性
  • 迁移学习如何使模型能够适应特定任务
  • 三种主要的架构变体:仅编码器、仅解码器和编码器-解码器

模型架构及其应用

本章的一个关键方面是理解如何为不同任务选择合适的架构:

模型 示例 任务
仅编码器 BERT, DistilBERT, ModernBERT 句子分类、命名实体识别、抽取式问答
仅解码器 GPT, LLaMA, Gemma, SmolLM 文本生成、对话式人工智能、创意写作
编码器-解码器 BART, T5, Marian, mBART 摘要、翻译、生成式问答

现代 LLM 的发展

你还了解了该领域的最新进展:

  • LLM 的规模和能力如何随时间增长
  • 缩放法则(Scaling laws)的概念及其如何指导模型开发
  • 帮助模型处理更长序列的专门注意力机制
  • 预训练和指令微调的两阶段训练方法

实际应用

在整个章节中,你已经看到了如何将这些模型应用于现实世界的问题:

  • 使用 Hugging Face Hub 查找和使用预训练模型
  • 利用推理 API 直接在浏览器中测试模型
  • 了解哪些模型最适合特定任务

展望未来

现在你对 Transformer 模型是什么以及它们在宏观层面的工作原理有了扎实的理解,你已经准备好深入学习如何有效地使用它们。在接下来的章节中,你将学习如何:

  • 使用 Transformers 库加载和微调模型
  • 处理不同类型的数据作为模型输入
  • 使预训练模型适应你的特定任务
  • 为实际应用部署模型

你在本章中建立的基础将为你探索后续章节中更高级的主题和技术提供坚实的支持。

< > 在 GitHub 上更新