LLM 课程文档

面向学生的 Open R1

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始入门

面向学生的 Open R1

欢迎来到激动人心的开源人工智能和强化学习世界!本章旨在帮助学生理解强化学习及其在 LLM 中的作用。

我们还将探索 Open R1,这是一个开创性的社区项目,旨在让每个人都能访问先进的 AI。具体来说,本课程旨在帮助学生和学习者使用 Open R1 并为其做出贡献。

你将学到什么

在本章中,我们将把复杂的概念分解成易于理解的部分,并向您展示如何参与这个激动人心的项目,使 LLM 能够推理复杂问题。

LLM 在许多生成任务中表现出了出色的性能。然而,直到最近,它们在需要推理的复杂问题上仍然struggle。例如,它们在处理需要多步骤推理的谜题或数学问题时会遇到困难。

Open R1 是一个旨在使 LLM 能够推理复杂问题的项目。它通过使用强化学习来鼓励 LLM 进行“思考”和推理来实现这一点。

简而言之,该模型被训练为生成思想和输出,并构建这些思想和输出,以便用户可以分别处理它们。

让我们看一个例子。如果我们给自己布置了解决以下问题的任务,我们可能会像这样思考

Problem: "I have 3 apples and 2 oranges. How many pieces of fruit do I have in total?"

Thought: "I need to add the number of apples and oranges to get the total number of pieces of fruit."

Answer: "5"

然后,我们可以构建这种想法和答案,以便用户可以分别处理它们。对于推理任务,可以训练 LLM 以以下格式生成想法和答案

<think>I need to add the number of apples and oranges to get the total number of pieces of fruit.</think>
5

作为用户,我们可以从模型的输出中提取想法和答案,并使用它们来解决问题。

为什么这对学生很重要

作为一名学生,理解 Open R1 以及强化学习在 LLM 中的作用非常有价值,因为

  • 它向您展示了尖端 AI 是如何开发的
  • 它为您提供了学习和贡献的实践机会
  • 它帮助您了解 AI 技术的未来发展方向
  • 它为未来在 AI 领域的职业机会打开了大门

章节概述

本章分为四个部分,每个部分侧重于 Open R1 的不同方面

1️⃣ 强化学习及其在 LLM 中的作用简介

我们将探讨强化学习 (RL) 的基础知识及其在训练 LLM 中的作用。

  • 什么是 RL?
  • RL 如何在 LLM 中使用?
  • 什么是 DeepSeek R1?
  • DeepSeek R1 的主要创新是什么?

2️⃣ 理解 DeepSeek R1 论文

我们将分解启发 Open R1 的研究论文

  • 主要创新和突破
  • 训练过程和架构
  • 结果及其意义

3️⃣ 在 TRL 中实现 GRPO

我们将通过代码示例进行实践

  • 如何使用 Transformer 强化学习 (TRL) 库
  • 设置 GRPO 训练

4️⃣ 对齐模型的实际用例

我们将研究一个使用 Open R1 对齐模型的实际用例。

  • 如何在 TRL 中使用 GRPO 训练模型
  • Hugging Face Hub 上分享您的模型

先决条件

为了充分利用本章,具备以下条件将很有帮助

  • 扎实的 Python 编程理解
  • 熟悉机器学习概念
  • 对 AI 和语言模型感兴趣

如果您缺少其中一些条件,请不要担心 - 我们将在讲解过程中解释关键概念!🚀

如果您不具备所有先决条件,请查看第 1 单元到第 11 单元的课程

如何使用本章

  1. 按顺序阅读:各部分内容相互构建,因此最好按顺序阅读
  2. 分享笔记:写下关键概念和问题,并在 Discord 的社区中讨论它们
  3. 尝试代码:当我们讲到实践示例时,请自己尝试一下
  4. 加入社区:使用我们提供的资源与其他学习者联系

让我们开始探索 Open R1,并发现您如何参与使 AI 更易于所有人访问!🚀

< > 在 GitHub 上更新