LLM 课程文档

强化学习及其在LLM中的作用简介

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

强化学习及其在LLM中的作用简介

欢迎来到第一页!

我们将开始探索激动人心的强化学习 (RL) 世界,并了解它如何彻底改变我们训练语言模型(例如您可能每天使用的模型)的方式。

在本章中,我们重点关注用于语言模型的强化学习。然而,强化学习是一个广泛的领域,在语言模型之外还有许多应用。如果您有兴趣了解更多关于强化学习的信息,您应该查看深度强化学习课程

即使您以前从未接触过 RL,本页也会为您提供友好且清晰的 RL 介绍。我们将分解核心思想,并了解为什么 RL 在大型语言模型 (LLM) 领域变得如此重要。

什么是强化学习 (RL)?

想象一下您正在训练一只狗。您想教它坐下。您可能会说“坐下!”,然后,如果狗坐下了,您会给它奖励和表扬。如果它不坐下,您可能会轻轻引导它或只是再次尝试。随着时间的推移,狗学会将坐下与积极的奖励(奖励和表扬)联系起来,并且当您再次说“坐下!”时,它更有可能坐下。在强化学习中,我们将这种反馈称为奖励

简而言之,这就是强化学习背后的基本思想!我们拥有的不是狗,而是一个语言模型(在强化学习中,我们称之为智能体),我们拥有的不是您,而是提供反馈的环境

RL terms Process

让我们分解 RL 的关键部分

智能体

这是我们的学习者。在狗的例子中,狗是智能体。在 LLM 的上下文中,LLM 本身成为我们想要训练的智能体。智能体是做出决策并从环境及其奖励中学习的角色。

环境

这是智能体生活和互动的世界。对于狗来说,环境是您的房子和您。对于 LLM 来说,环境有点抽象——它可能是与之互动的用户,或者是我们为其设置的模拟场景。环境向智能体提供反馈。

动作

这些是智能体可以在环境中做出的选择。狗的动作包括“坐下”、“站立”、“吠叫”等。对于 LLM 来说,动作可以是生成句子中的单词、选择对问题的答案,或者决定如何在对话中回应。

奖励

这是环境在智能体采取行动后给予智能体的反馈。奖励通常是数字。

正向奖励就像奖励和表扬——它们告诉智能体“做得好,你做对了!”。

负向奖励(或惩罚)就像温和的“不”——它们告诉智能体“那不太对,试试别的”。对于狗来说,奖励就是食物。

对于 LLM 来说,奖励旨在反映 LLM 在特定任务中的表现——也许是其响应的有用性、真实性或无害性。

策略

这是智能体选择动作的策略。这就像狗理解当您说“坐下!”时它应该做什么。在 RL 中,策略是我们真正试图学习和改进的东西。它是一组规则或函数,告诉智能体在不同情况下采取什么行动。最初,策略可能是随机的,但随着智能体的学习,策略会更好地选择导致更高奖励的动作。

RL 过程:试错

RL Process

强化学习通过试错过程发生

步骤 过程 描述
1. 观察 智能体观察环境 智能体接收有关其当前状态和周围环境的信息
2. 动作 智能体根据其当前策略采取行动 智能体使用其学习到的策略(策略)来决定下一步做什么
3. 反馈 环境给予智能体奖励 智能体接收有关其动作好坏的反馈
4. 学习 智能体根据奖励更新其策略 智能体调整其策略 - 强化导致高奖励的动作,并避免导致低奖励的动作
5. 迭代 重复该过程 此循环持续进行,使智能体能够不断改进其决策

想想学骑自行车。您最初可能会摇晃和摔倒(负向奖励!)。但是,当您设法保持平衡并顺利踩踏板时,您会感觉良好(正向奖励!)。您会根据此反馈调整您的动作——稍微倾斜、更快地踩踏板等——直到您学会骑自行车为止。RL 类似——它关乎通过互动和反馈进行学习。

RL 在大型语言模型 (LLM) 中的作用

现在,为什么 RL 对大型语言模型如此重要?

嗯,训练真正优秀的 LLM 非常棘手。我们可以在来自互联网的大量文本上训练它们,它们变得非常擅长预测句子中的下一个单词。这就是它们学习生成流利且语法正确的文本的方式,正如我们在第 2 章中所学到的那样。

但是,仅仅流利是不够的。我们希望我们的 LLM 不仅仅擅长将单词串在一起。我们希望它们是

  • 有帮助的:提供有用且相关的信息。
  • 无害的:避免生成有害、有偏见或有害的内容。
  • 与人类偏好对齐:以人类觉得自然、有帮助且引人入胜的方式做出回应。

主要依赖于从文本数据中预测下一个单词的预训练 LLM 方法有时在这些方面有所欠缺。

虽然监督训练在生成结构化输出方面非常出色,但在生成有帮助、无害且对齐的响应方面可能效果较差。我们在第 11 章中探讨了监督训练。

微调模型可能会生成流利且结构化的文本,但这些文本仍然可能在事实上不正确、有偏见,或者实际上没有以有帮助的方式回答用户的问题。

强化学习登场! RL 为我们提供了一种微调这些预训练 LLM 以更好地实现这些期望品质的方法。这就像给我们的 LLM 狗额外训练,使其成为一只行为良好且有帮助的伙伴,而不仅仅是一只会流利吠叫的狗!

来自人类反馈的强化学习 (RLHF)

用于对齐语言模型的一种非常流行的技术是来自人类反馈的强化学习 (RLHF)。在 RLHF 中,我们使用人类反馈作为 RL 中“奖励”信号的代理。以下是它的工作原理

  1. 获取人类偏好:我们可能会要求人类比较 LLM 为同一输入提示生成的不同响应,并告诉我们他们更喜欢哪个响应。例如,我们可能会向一个人展示对问题“法国的首都是什么?”的两种不同答案,并询问他们“哪个答案更好?”。

  2. 训练奖励模型:我们使用此人类偏好数据来训练一个单独的模型,称为奖励模型。此奖励模型学习预测人类会喜欢哪种响应。它学习根据有用性、无害性和与人类偏好的一致性对响应进行评分。

  3. 使用 RL 微调 LLM:现在我们使用奖励模型作为 LLM 智能体的环境。LLM 生成响应(动作),奖励模型对这些响应进行评分(提供奖励)。本质上,我们正在训练 LLM 生成我们的奖励模型(从人类偏好中学习)认为良好的文本。

RL Basic Concept

从总体角度来看,让我们看看在 LLM 中使用 RL 的好处

好处 描述
改进的控制 RL 使我们能够更好地控制 LLM 生成的文本类型。我们可以引导它们生成更符合特定目标的文本,例如更有帮助、更具创造力或更简洁。
增强与人类价值观的对齐 特别是 RLHF,帮助我们将 LLM 与复杂且通常是主观的人类偏好对齐。“什么使答案良好”很难写下规则,但人类可以轻松判断和比较响应。RLHF 让模型可以从这些人类判断中学习。
减轻不良行为 RL 可用于减少 LLM 中的负面行为,例如生成有害语言、传播错误信息或表现出偏见。通过设计奖励来惩罚这些行为,我们可以促使模型避免这些行为。

来自人类反馈的强化学习已被用于训练当今许多最流行的 LLM,例如 OpenAI 的 GPT-4、Google 的 Gemini 和 DeepSeek 的 R1。RLHF 有各种各样的技术,复杂性和精细程度各不相同。在本章中,我们将重点关注群体相对策略优化 (GRPO),这是一种 RLHF 技术,已被证明在训练有帮助、无害且与人类偏好对齐的 LLM 方面有效。

为什么我们应该关注 GRPO(群体相对策略优化)?

RLHF 有许多技术,但本课程侧重于 GRPO,因为它代表了语言模型强化学习的重大进步。

让我们简要考虑 RLHF 的另外两种流行技术

  • 近端策略优化 (PPO)
  • 直接偏好优化 (DPO)

近端策略优化 (PPO) 是最早的 RLHF 高效技术之一。它使用策略梯度方法根据来自单独奖励模型的奖励来更新策略。

直接偏好优化 (DPO) 后来被开发为一种更简单的技术,它消除了直接使用偏好数据对单独奖励模型的需求。本质上,将问题构建为选择和拒绝响应之间的分类任务。

DPO 和 PPO 本身就是复杂的强化学习算法,我们将在本课程中不介绍它们。如果您有兴趣了解更多关于它们的信息,您可以查看以下资源

与 DPO 和 PPO 不同,GRPO 将相似的样本分组在一起,并将它们作为一个组进行比较。与其他方法相比,基于组的方法提供更稳定的梯度和更好的收敛特性。

GRPO 不像 DPO 那样使用偏好数据,而是使用来自模型或函数的奖励信号比较相似样本的组。

GRPO 在如何获取奖励信号方面具有灵活性 - 它可以与奖励模型(如 PPO 所做的那样)一起工作,但并非严格要求奖励模型。这是因为 GRPO 可以合并来自任何可以评估响应质量的函数或模型的奖励信号。

例如,我们可以使用长度函数来奖励较短的响应,使用数学求解器来验证解决方案的正确性,或者使用事实正确性函数来奖励更符合事实的响应。这种灵活性使 GRPO 特别适合不同类型的对齐任务。


恭喜您完成模块 1!您现在已经对强化学习及其在塑造大型语言模型未来中的关键作用有了扎实的介绍。您了解了 RL 的基本概念、为什么它用于 LLM,并且您已经了解了 GRPO,这是该领域的关键算法。

在下一个模块中,我们将亲自动手,深入研究 DeepSeek R1 论文,以了解这些概念的实际应用!

测验

1. 强化学习的关键组成部分是什么?

2. RLHF 训练语言模型的主要优势是什么?

3. 在 LLM 的 RL 上下文中,“动作”代表什么?

4. 奖励在语言模型的 RL 训练中的作用是什么?

5. 在大型语言模型的强化学习 (RL) 中,什么是奖励?

< > 在 GitHub 上更新