大型语言模型的强化学习:超越智能体范式
你是否曾好奇ChatGPT是如何从生成看似合理但常有问题文本,转变为提供有用、无害且诚实回应的?其秘密武器在于一种特殊的强化学习分支,它与大多数人对该术语的理解大相径庭。让我们深入探索语言模型强化学习的迷人世界——在这里,目标不是教智能体玩视频游戏,而是使强大的AI系统与人类价值观和偏好保持一致。
传统强化学习与大型语言模型专用强化学习
经典范式
当大多数人听到“强化学习”时,他们会想象一个智能体在迷宫中穿梭,一个机器人学习走路,或者一个AI通过试错掌握国际象棋或围棋。经典的强化学习设置涉及一个智能体与环境交互,收集奖励或惩罚,并逐步优化其行为。这就像我们人类从小通过后果学习一样5。
大型语言模型专用方法
但当我们谈论大型语言模型(LLM)的强化学习时,我们进入了一个完全不同的领域。我们不是训练一个智能体来导航物理或虚拟空间,而是微调一个预训练的语言模型以使其符合人类偏好。该模型不与外部环境交互——它本质上是在探索自己的输出空间5。
正如OpenAI和其他组织所发现的,这种方法对于将原始语言模型转化为辅助系统至关重要。IBM研究人员指出,“RLHF特别适合目标复杂、定义不清或难以明确的任务。”5 毕竟,如何用数学定义“有用性”或“诚实”等概念呢?
这里的根本转变是:
- 我们正在优化与人类偏好的一致性,而非环境掌握。
- 我们的数据来源于人类判断,而非环境交互。
- 我们需要在奖励最大化和保持与原始预训练行为接近之间取得平衡。
这种平衡使得大型语言模型强化学习变得尤其棘手——且引人入胜!
大型语言模型的关键强化学习技术
近端策略优化(PPO)
PPO是LLM对齐技术中的重量级冠军,因OpenAI开发InstructGPT和ChatGPT而闻名。PPO于2017年开发,解决了强化学习中的一个关键挑战:如何在不破坏训练稳定性的情况下进行有意义的更新1。
PPO成功的秘诀在于其“近端”性质——它对策略进行保守更新,防止模型在一次迭代中发生剧烈变化。这是通过其目标函数中的巧妙裁剪机制实现的。
不必担心这看起来令人望而生畏!关键在于,通过限制新旧策略之间的比率(通常在1±0.2之间),PPO确保了模型在训练过程中不会偏离奇怪的领域1。
PPO一直是实现人类反馈强化学习(RLHF)的首选算法,RLHF遵循三步流程:
- 从预训练的LLM开始
- 基于人类偏好训练奖励模型
- 使用PPO优化LLM,使其在最大化奖励的同时,保持与原始行为的接近
正如Cameron Wolfe所说:“PPO运行良好,并且非常易于理解和使用,这使其成为从实践角度来看理想的算法。”1 尽管如此,PPO并非没有挑战——它计算成本高昂,并且正确实施起来可能很棘手,这促使研究人员开发了替代方案。
直接偏好优化(DPO)
如果说PPO是小心翼翼地进行精确切口的外科医生,那么DPO就是找到通往相同目的地捷径的效率专家。DPO在2023年一篇题为“直接偏好优化:您的语言模型秘密地是一个奖励模型”的令人瞠目结舌的论文中被引入,它完全消除了对独立奖励模型的需要2。
DPO的精妙之处在于其数学洞察力:奖励函数和最优策略之间存在直接映射。通过利用这种关系,DPO将强化学习问题转化为人类偏好数据上更简单的分类问题。
DPO 不再采用传统的 RLHF 三阶段流程,而是在单阶段训练中完成相同的目标。这就像跳过中间环节,直奔源头2。
DPO 之所以对实践者特别有吸引力,在于其:
- 简易性:无需训练单独的奖励模型
- 效率:消除了训练过程中昂贵的采样需求
- 稳定性:更少的活动部件意味着更少的出错可能性
- 性能:在控制输出属性方面通常与RLHF相当或超越
正如Toloka的博客所言:“DPO是人工智能和机器学习领域的一种范式,其重点是直接根据人类偏好优化语言模型……这种新的优化方法有助于更快、更高效地调整和训练语言模型以找到正确答案。”7
群组相对策略优化(GRPO)
那么,如果能将PPO的可靠性与更高的效率和对提高推理能力的特殊关注相结合,会怎样?GRPO应运而生,它是RL领域的新秀之一,由DeepSeek开发并用于训练其令人印象深刻的DeepSeek-Math和DeepSeek-R1模型3。
GRPO建立在PPO的基础之上,但引入了几个巧妙的修改:
- 它取消了独立的价值函数模型,降低了内存开销。
- 它评估的是输出组而不是单个标记。
- 它直接将KL散度纳入损失函数。
这种基于群组的方法尤其巧妙。GRPO不是独立评估每个标记,而是将完整的响应作为一个整体来看待——这是一种更自然的评估推理能力的方式,因为整个解决方案过程都很重要,而不仅仅是单个步骤3。
用AWS社区文章的话说:“GRPO利用的群组相对方式计算优势,与奖励模型的比较性质非常吻合,因为奖励模型通常是在相同问题下输出之间比较的数据集上训练的。”8
Q:新秀
虽然基于策略的方法在LLM对齐领域占据主导地位,但基于价值的方法现在也加入了竞争。Q 代表了一种基于价值的替代方法,它学习最优Q函数来指导参考策略。
Q 提供了一些引人入胜的优势:
- 针对KL正则化RL问题的理论保证
- 在保持与参考策略紧密联系的同时,提高数学推理任务的性能
- 当参考策略方差较小时,收敛速度更快
这种方法在大型语言模型领域仍相对较新,但它代表了未来研究和发展的一个激动人心的方向。
使用Hugging Face的TRL库进行实际实现
所有这些技术美妙之处在于,您不必从头开始实现它们(除非您真的想)。Hugging Face的Transformer强化学习(TRL)库使这些高级算法对开发人员和研究人员都易于访问4。
TRL为各种对齐技术提供训练器:
SFTTrainer
用于监督微调GRPOTrainer
用于群组相对策略优化DPOTrainer
用于直接偏好优化RewardTrainer
用于训练奖励模型
该库与更广泛的Transformers生态系统无缝集成,并支持从单GPU到多节点集群的扩展。它还提供了与参数高效微调(PEFT)方法(如LoRA)的集成,使得即使您无法访问数据中心也能训练大型模型4。
想自己试试吗?很简单:
# Install the library
pip install trl
# Use the CLI for quick experiments
trl dpo --model_name_or_path Qwen/Qwen2.5-0.5B-Instruct \
--dataset_name argilla/Capybara-Preferences \
--output_dir Qwen2.5-0.5B-DPO
理解大型语言模型强化学习的演变
审视大型语言模型强化学习技术的发展,可以发现一条清晰的演进路径,即向更简单、更高效的方法迈进,同时保持或提高性能:
- PPO/RLHF (2022):有效但复杂的复合流程,需要独立的奖励建模和策略优化1
- DPO (2023):通过消除独立的奖励模型简化了流程,同时保持了性能2
- GRPO (2024-2025):专门针对推理任务进行优化,采用群组级别评估并提高效率3
- Q (2025):基于价值的方法,提供理论保证,并在特定领域可能表现出更好的性能
每一次迭代都使我们更接近于实现高效、有效的对齐技术的理想,这些技术可以被AI社区广泛采用。