LLM 课程文档

强化学习及其在大型语言模型 (LLM) 中的作用简介

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

强化学习及其在大型语言模型 (LLM) 中的作用简介

欢迎来到第一页!

我们将踏上激动人心的强化学习 (RL) 之旅,探索它如何彻底改变我们训练语言模型(如您日常使用的那些模型)的方式。

在本章中,我们将重点关注语言模型的强化学习。然而,强化学习是一个广阔的领域,除了语言模型之外还有许多应用。如果您对强化学习的更多内容感兴趣,可以查看深度强化学习课程

即使您从未接触过 RL,本页也将为您提供一个友好而清晰的介绍。我们将剖析核心思想,并了解为什么 RL 在大型语言模型 (LLM) 领域变得如此重要。

什么是强化学习 (RL)?

想象一下您正在训练一只狗。您想教它坐下。您可能会说“坐下!”,然后,如果狗坐下了,您就给它零食和表扬。如果它不坐下,您可能会轻轻引导它,或者再试一次。随着时间的推移,狗学会将坐下与积极的奖励(零食和表扬)联系起来,并且当您再次说“坐下!”时,它更有可能坐下。在强化学习中,我们将这种反馈称为奖励

简而言之,这就是强化学习的基本思想!我们不是训练狗,而是训练语言模型(在强化学习中,我们称之为智能体),而我们则充当提供反馈的环境

RL terms Process

让我们来分解一下 RL 的关键组成部分

智能体 (Agent)

这是我们的学习者。在狗的例子中,狗就是智能体。在 LLM 的上下文中,LLM 本身就成为我们想要训练的智能体。智能体是做出决策并从环境及其奖励中学习的。

环境 (Environment)

这是智能体生活并与之互动的世界。对于狗来说,环境就是您的房子和您。对于 LLM 来说,环境有点抽象——它可能是与之互动的用户,或者是我们为其设置的模拟场景。环境向智能体提供反馈。

行动 (Action)

这些是智能体在环境中可以做出的选择。狗的行动是“坐下”、“站立”、“吠叫”等。对于 LLM 来说,行动可以是生成句子中的单词、选择问题的答案,或者决定如何在对话中做出回应。

奖励 (Reward)

这是智能体执行动作后环境给予的反馈。奖励通常是数字。

积极奖励就像零食和表扬——它们告诉智能体“做得好,你做对了!”。

负面奖励(或惩罚)就像一声温柔的“不”——它们告诉智能体“那不太对,试试别的”。对于狗来说,零食就是奖励。

对于 LLM 来说,奖励旨在反映 LLM 在特定任务中的表现——也许是其响应的有用性、真实性或无害性。

策略 (Policy)

这是智能体选择行动的策略。这就像狗理解当您说“坐下!”时它应该做什么。在 RL 中,策略是我们真正想要学习和改进的。它是一组规则或一个函数,告诉智能体在不同情况下采取什么行动。最初,策略可能是随机的,但随着智能体的学习,策略会更好地选择导致更高奖励的行动。

RL 过程:试错

RL Process

强化学习通过试错过程进行

步骤 过程 描述
1. 观察 智能体观察环境 智能体接收有关其当前状态和周围环境的信息
2. 行动 智能体根据其当前策略采取行动 智能体利用其学习到的策略(policy)决定下一步做什么
3. 反馈 环境给予智能体奖励 智能体收到对其行动好坏的反馈
4. 学习 智能体根据奖励更新其策略 智能体调整其策略——强化带来高奖励的行动,避免带来低奖励的行动
5. 迭代 重复此过程 这个循环持续进行,使智能体能够不断改进其决策。

想想学骑自行车。一开始你可能会摇摇晃晃地摔倒(负面奖励!)。但当你成功地保持平衡并顺利踩踏时,你会感觉良好(正面奖励!)。你根据这些反馈调整你的行动——稍微倾斜,踩得更快等等——直到你学会骑得很好。RL 也是如此——它通过互动和反馈来学习。

RL 在大型语言模型 (LLM) 中的作用

那么,为什么 RL 对大型语言模型如此重要呢?

嗯,训练真正好的 LLM 很棘手。我们可以用互联网上大量的文本来训练它们,它们在预测句子中的下一个词方面变得非常擅长。正如我们在第二章中学到的,这就是它们学习生成流利且语法正确的文本的方式。

然而,仅仅流利是不够的。我们希望我们的 LLM 不仅仅擅长串联单词。我们希望它们能够:

  • 有帮助:提供有用且相关的信息。
  • 无害:避免生成有害、偏见或有害内容。
  • 与人类偏好保持一致:以人类认为自然、有帮助和引人入胜的方式回应。

预训练 LLM 方法主要依赖于从文本数据中预测下一个单词,有时在这些方面表现不佳。

虽然监督训练在生成结构化输出方面表现出色,但在生成有益、无害和对齐的响应方面效果不佳。我们在第 11 章中探讨了监督训练。

经过微调的模型可能会生成流利且结构化的文本,但这些文本仍然可能存在事实错误、偏见,或者无法以有用的方式真正回答用户的问题。

强化学习应运而生!RL 为我们提供了一种微调这些预训练 LLM 的方法,以更好地实现这些期望的品质。这就像给我们的 LLM 狗进行额外的训练,让它成为一个行为良好且乐于助人的伙伴,而不仅仅是一只会流利吠叫的狗!

基于人类反馈的强化学习 (RLHF)

一种非常流行的对齐语言模型的技术是基于人类反馈的强化学习 (RLHF)。在 RLHF 中,我们使用人类反馈作为 RL 中“奖励”信号的代理。其工作原理如下:

  1. 获取人类偏好:我们可能会要求人类比较 LLM 为相同输入提示生成的不同响应,并告诉我们他们更喜欢哪一个响应。例如,我们可能会向人类展示两个对问题“法国的首都是什么?”的不同回答,并询问他们“哪个回答更好?”。

  2. 训练奖励模型:我们使用这些人类偏好数据来训练一个单独的模型,称为奖励模型。该奖励模型学习预测人类会喜欢哪种响应。它学习根据有用性、无害性以及与人类偏好的一致性来评估响应。

  3. 使用 RL 微调 LLM:现在我们将奖励模型用作 LLM 智能体的环境。LLM 生成响应(行动),奖励模型评估这些响应(提供奖励)。本质上,我们正在训练 LLM 生成我们的奖励模型(从人类偏好中学习)认为好的文本。

RL Basic Concept

从宏观角度看,让我们来看看在 LLM 中使用 RL 的好处

益处 描述
改进控制 RL 允许我们更好地控制 LLM 生成的文本类型。我们可以引导它们生成更符合特定目标的文本,例如有用、有创意或简洁。
增强与人类价值观的一致性 尤其是 RLHF,它帮助我们将 LLM 与复杂且通常主观的人类偏好对齐。很难写出“什么是好的答案”的规则,但人类可以很容易地判断和比较回答。RLHF 让模型从这些人类判断中学习。
减少不良行为 RL 可用于减少 LLM 中的负面行为,例如生成有害语言、传播错误信息或表现出偏见。通过设计惩罚这些行为的奖励,我们可以引导模型避免它们。

基于人类反馈的强化学习已用于训练当今许多最流行的大型语言模型,例如 OpenAI 的 GPT-4、Google 的 Gemini 和 DeepSeek 的 R1。RLHF 的技术种类繁多,复杂程度和精细程度各不相同。在本章中,我们将重点关注群组相对策略优化 (GRPO),这是一种 RLHF 技术,已被证明在训练有用、无害且符合人类偏好的大型语言模型方面是有效的。

我们为什么要关注 GRPO(群组相对策略优化)?

RLHF 有许多技术,但本课程专注于 GRPO,因为它代表了语言模型强化学习的重大进步。

让我们简要考虑另外两种流行的 RLHF 技术

  • 近端策略优化 (PPO)
  • 直接偏好优化 (DPO)

近端策略优化(PPO)是 RLHF 首批高效技术之一。它使用策略梯度方法,根据来自独立奖励模型的奖励来更新策略。

直接偏好优化(DPO)后来被开发为一种更简单的技术,它无需单独的奖励模型,而是直接使用偏好数据。本质上,将问题框架为选择和拒绝响应之间的分类任务。

DPO 和 PPO 本身是复杂的强化学习算法,我们不会在本课程中涵盖。如果您有兴趣了解更多信息,可以查看以下资源:

与 DPO 和 PPO 不同,GRPO 将相似样本分组并进行比较。基于群组的方法比其他方法提供更稳定的梯度和更好的收敛特性。

GRPO 不像 DPO 那样使用偏好数据,而是使用来自模型或函数的奖励信号来比较一组相似的样本。

GRPO 在获取奖励信号方面具有灵活性——它可以使用奖励模型(如 PPO),但并非严格要求。这是因为 GRPO 可以从任何能够评估响应质量的函数或模型中获取奖励信号。

例如,我们可以使用长度函数奖励较短的响应,使用数学求解器验证解决方案的正确性,或者使用事实正确性函数奖励更符合事实的响应。这种灵活性使得 GRPO 特别适用于不同类型的对齐任务。


恭喜您完成第一模块!您现在已经对强化学习及其在塑造大型语言模型未来方面的关键作用有了扎实的介绍。您了解了 RL 的基本概念、它在 LLM 中使用的原因,并且您已经接触了 GRPO,这是该领域的一个关键算法。

在下一模块中,我们将亲自动手,深入研究 DeepSeek R1 论文,亲眼看看这些概念是如何实际应用的!

测验

1. 强化学习的关键组成部分是什么?

2. RLHF 训练语言模型的主要优势是什么?

3. 在 LLM 的 RL 上下文中,“行动”代表什么?

4. 奖励在语言模型 RL 训练中的作用是什么?

5. 在 LLM 的 RL 上下文中,奖励是什么?

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.