简介

欢迎来到 🤗 课程！

本课程将教您如何使用来自 Hugging Face 生态系统的库 — 🤗 Transformers、🤗 Datasets、🤗 Tokenizers 和 🤗 Accelerate — 以及 Hugging Face Hub，来学习大型语言模型 (LLM) 和自然语言处理 (NLP)。本课程完全免费，且无广告。

理解 NLP 和 LLM

虽然本课程最初侧重于 NLP（自然语言处理），但它已发展为强调大型语言模型（LLM），这代表了该领域的最新进展。

有什么区别？

NLP（自然语言处理）是一个更广泛的领域，专注于使计算机能够理解、解释和生成人类语言。NLP 包含许多技术和任务，例如情感分析、命名实体识别和机器翻译。
LLM（大型语言模型）是 NLP 模型的一个强大子集，其特点是规模庞大、训练数据广泛，并且能够通过最少的特定任务训练来执行各种语言任务。像 Llama、GPT 或 Claude 系列模型都是 LLM 的示例，它们彻底改变了 NLP 领域的可能性。

在本课程中，您将学习传统的 NLP 概念和前沿的 LLM 技术，因为理解 NLP 的基础知识对于有效地使用 LLM 至关重要。

期望内容？

以下是课程的简要概述

Brief overview of the chapters of the course.

第 1 至 4 章介绍了 🤗 Transformers 库的主要概念。在本部分课程结束时，您将熟悉 Transformer 模型的工作原理，并且将知道如何使用 Hugging Face Hub 中的模型，在数据集上对其进行微调，并在 Hub 上分享您的结果！
第 5 至 8 章在深入探讨经典 NLP 任务和 LLM 技术之前，先教授 🤗 Datasets 和 🤗 Tokenizers 的基础知识。在本部分结束时，您将能够自己应对最常见的语言处理挑战。
第 9 章超越了 NLP，涵盖了如何在 🤗 Hub 上构建和共享模型的演示。在本部分结束时，您将准备好向世界展示您的 🤗 Transformers 应用程序！
第 10 至 12 章深入探讨了高级 LLM 主题，例如微调、策划高质量数据集和构建推理模型。

本课程

需要良好的 Python 知识
最好在学习过深度学习入门课程后再学习，例如 fast.ai 的 Practical Deep Learning for Coders 或 DeepLearning.AI 开发的课程之一
不期望事先掌握 PyTorch 或 TensorFlow 知识，尽管熟悉其中任何一个都会有所帮助

完成本课程后，我们建议您查看 DeepLearning.AI 的自然语言处理专业化课程，该课程涵盖了广泛的传统 NLP 模型，如朴素贝叶斯和 LSTM，这些模型都非常值得了解！

我们是谁？

关于作者

Abubakar Abid 在斯坦福大学完成了应用机器学习博士学位。攻读博士学位期间，他创立了 Gradio，这是一个开源 Python 库，已被用于构建超过 60 万个机器学习演示。Gradio 被 Hugging Face 收购，Abubakar 现在在 Hugging Face 担任机器学习团队主管。

Ben Burtenshaw 是 Hugging Face 的机器学习工程师。他在安特卫普大学完成了自然语言处理博士学位，在那里他应用 Transformer 模型生成儿童故事，以提高读写能力。此后，他专注于为更广泛的社区提供教育材料和工具。

Matthew Carrigan 是 Hugging Face 的机器学习工程师。他住在爱尔兰都柏林，之前曾在 Parse.ly 担任 ML 工程师，再之前在都柏林圣三一学院担任博士后研究员。他不相信我们能够通过扩展现有架构来实现 AGI，但对机器人的永生抱有很高的期望。

Lysandre Debut 是 Hugging Face 的机器学习工程师，自 🤗 Transformers 库的早期开发阶段以来一直致力于此。他的目标是通过开发具有非常简单 API 的工具，使每个人都能访问 NLP。

Sylvain Gugger 是 Hugging Face 的研究工程师，也是 🤗 Transformers 库的核心维护者之一。此前，他曾在 fast.ai 担任研究科学家，并与 Jeremy Howard 合著了Deep Learning for Coders with fastai and PyTorch。他的研究主要集中在通过设计和改进技术使深度学习更易于访问，这些技术允许模型在有限的资源上快速训练。

Dawood Khan 是 Hugging Face 的机器学习工程师。他来自纽约市，毕业于纽约大学计算机科学专业。在担任几年 iOS 工程师后，Dawood 辞职与他的其他联合创始人一起创办了 Gradio。Gradio 最终被 Hugging Face 收购。

Merve Noyan 是 Hugging Face 的开发者布道师，致力于开发工具并围绕这些工具构建内容，以普及面向所有人的机器学习。

Lucile Saulnier 是 Hugging Face 的机器学习工程师，负责开发和支持开源工具的使用。她还积极参与自然语言处理领域的许多研究项目，例如协同训练和 BigScience。

Lewis Tunstall 是 Hugging Face 的机器学习工程师，专注于开发开源工具并使其可供更广泛的社区使用。他还是 O'Reilly 图书 Natural Language Processing with Transformers 的合著者。

Leandro von Werra 是 Hugging Face 开源团队的机器学习工程师，也是 O'Reilly 图书 Natural Language Processing with Transformers 的合著者。他拥有多年的行业经验，通过跨越整个机器学习堆栈，将 NLP 项目投入生产。

常见问题解答

以下是一些常见问题的解答

完成本课程是否能获得认证？ 目前，我们没有为本课程提供任何认证。但是，我们正在为 Hugging Face 生态系统开发认证计划 — 敬请关注！
我应该在本课程上花费多少时间？ 本课程的每个章节都设计为在 1 周内完成，每周大约需要 6-8 小时的工作量。但是，您可以根据需要花费尽可能多的时间来完成课程。
如果我有问题，可以在哪里提问？ 如果您对课程的任何部分有疑问，只需单击页面顶部的“提问”横幅，即可自动重定向到 Hugging Face 论坛的相应版块

请注意，如果您希望在完成课程后进行更多练习，论坛上还提供了项目构想列表。

我在哪里可以获得课程代码？ 对于每个部分，单击页面顶部的横幅，即可在 Google Colab 或 Amazon SageMaker Studio Lab 中运行代码

Link to the Hugging Face course notebooks

包含课程所有代码的 Jupyter 笔记本托管在 huggingface/notebooks 仓库中。如果您希望在本地生成它们，请查看 GitHub 上 course 仓库中的说明。

如何为课程做贡献？ 有多种方式可以为课程做贡献！如果您发现拼写错误或错误，请在 course 仓库上打开一个 issue。如果您想帮助将课程翻译成您的母语，请查看此处的说明。
每个翻译版本的选择是什么？ 每个翻译版本都有一个词汇表和 TRANSLATING.txt 文件，详细说明了机器学习术语等的选择。您可以在此处找到德语示例。

我可以重复使用本课程吗？ 当然可以！本课程根据宽松的 Apache 2 许可证发布。这意味着您必须给予适当的署名，提供许可证链接，并说明是否进行了更改。您可以以任何合理的方式这样做，但不得以任何暗示许可方认可您或您的使用方式的方式进行。如果您想引用本课程，请使用以下 BibTeX

@misc{huggingfacecourse,
  author = {Hugging Face},
  title = {The Hugging Face Course, 2022},
  howpublished = "\url{https://huggingface.co/course}",
  year = {2022},
  note = "[Online; accessed <today>]"
}

开始学习

您准备好开始了吗？在本章中，您将学习

如何使用 pipeline() 函数解决 NLP 任务，例如文本生成和分类
关于 Transformer 架构
如何区分 encoder、decoder 和 encoder-decoder 架构以及用例

< > 在 GitHub 上更新