LLM 课程文档

面向学生的Open R1

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

面向学生的Open R1

欢迎踏上激动人心的开源人工智能与强化学习之旅!本章旨在帮助学生理解强化学习及其在大型语言模型 (LLM) 中的作用。

我们还将探索 Open R1,这是一个开创性的社区项目,它使先进的人工智能人人可及。具体来说,本课程旨在帮助学生和学习者使用并贡献 Open R1

您将学到什么

在本章中,我们将把复杂的概念分解成易于理解的部分,并向您展示如何参与到这个激动人心的项目中,让LLM能够解决复杂问题。

LLM在许多生成任务上都表现出色。然而,直到最近,它们在需要推理的复杂问题上一直表现不佳。例如,它们在处理需要多步推理的谜题或数学问题时会遇到困难。

Open R1是一个旨在让LLM能够解决复杂问题的项目。它通过使用强化学习来鼓励LLM“思考”和推理。

简单来说,模型被训练来生成思想和输出,并对这些思想和输出进行结构化,以便用户可以单独处理它们。

我们来看一个例子。当我们要解决以下问题时,我们可能会这样思考:

Problem: "I have 3 apples and 2 oranges. How many pieces of fruit do I have in total?"

Thought: "I need to add the number of apples and oranges to get the total number of pieces of fruit."

Answer: "5"

然后,我们可以将这种思想和答案进行结构化,以便用户可以单独处理它们。对于推理任务,LLM可以被训练成以下格式生成思想和答案:

<think>I need to add the number of apples and oranges to get the total number of pieces of fruit.</think>
5

作为用户,我们就可以从模型的输出中提取思想和答案,并用它们来解决问题。

这为什么对学生很重要

作为学生,了解Open R1以及强化学习在LLM中的作用很有价值,因为它:

  • 向您展示了尖端人工智能是如何开发的
  • 为您提供动手学习和贡献的机会
  • 帮助您了解人工智能技术的发展方向
  • 为未来的人工智能职业机会打开大门

章节概览

本章分为四个部分,每个部分都侧重于Open R1的不同方面

1️⃣ 强化学习及其在LLM中的作用简介

我们将探讨强化学习 (RL) 的基础知识及其在训练LLM中的作用。

  • 什么是RL?
  • RL是如何在LLM中使用的?
  • 什么是DeepSeek R1?
  • DeepSeek R1的主要创新点是什么?

2️⃣ 理解DeepSeek R1论文

我们将深入分析启发 Open R1 的研究论文

  • 主要创新与突破
  • 训练过程和架构
  • 结果及其意义

3️⃣ 在TRL中实现GRPO

我们将通过代码示例进行实践

  • 如何使用Transformer强化学习 (TRL) 库
  • 设置GRPO训练

4️⃣ 模型对齐的实际应用案例

我们将探讨一个使用Open R1对齐模型的实际应用案例。

  • 如何在TRL中使用GRPO训练模型
  • Hugging Face Hub 上分享您的模型

先决条件

为了充分利用本章内容,建议您具备以下知识:

  • 扎实的Python编程基础
  • 熟悉机器学习概念
  • 对人工智能和语言模型感兴趣

如果您缺少其中一些知识,请不用担心——我们将在讲解过程中解释关键概念!🚀

如果您没有满足所有先决条件,请查看本课程的第1至11单元

如何使用本章

  1. 按顺序阅读:各部分内容层层递进,建议按顺序阅读。
  2. 分享笔记:记下关键概念和问题,并在Discord社区中讨论Discord
  3. 尝试代码:遇到实践示例时,请亲自尝试。
  4. 加入社区:使用我们提供的资源与其他学习者建立联系。

让我们开始探索Open R1,并发现您如何参与到使人工智能更普及的项目中来!🚀

< > 在 GitHub 上更新