从零到推理英雄:DeepSeek-R1 如何利用强化学习掌握复杂推理
2024年被称为“代理之年”,而2025年则有望成为“强化学习之年”。DeepSeek-R1正好证明了这一点。它也强调了“开放”AI 公司对开源社区的贡献远超 OpenAI。
1. 引言
自 DeepSeek-V3 轰动发布以来,DeepSeek 一直是大型语言模型(LLM)社区的耀眼明星。爱好者和专家都热切期待“DeepSeek-R1-Lite”的开源预览。2025 年的第一个月,它终于隆重登场——准备重新定义我们对人工智能推理的看法。DeepSeek-R1 打破了常规。这种新方法使用大规模强化学习(RL)——有时**没有任何**监督预热——来解锁涌现的推理能力,包括扩展思维链(CoT)、反思、验证,甚至“顿悟时刻”。
在这篇文章中,我们将探讨 DeepSeek 家族中的两个开创性模型
- DeepSeek-R1-Zero:一个纯粹通过强化学习学习复杂推理行为的模型,没有任何监督微调,展示出扩展思维链、反思和自我纠正等涌现能力。
- DeepSeek-R1:在 R1-Zero 的基础上,该版本结合了少量高质量的“冷启动”数据,以及迭代强化学习和监督微调,以生成更连贯、用户友好的输出,同时保持最先进的推理性能。
通过比较这些模型、它们的训练策略和底层数学,我们强调了强化学习如何改变 LLM 的能力。
在这篇文章中,我们将深入探讨
- DeepSeek-R1-Zero 如何在**没有任何监督数据**的情况下实现接近最先进的推理性能。
- DeepSeek-R1 为何将少量“冷启动”数据集与迭代 RL 和监督微调相结合,以实现更用户友好的输出。
- 如何从 DeepSeek-R1 的高级推理模式中进行**蒸馏**,将较小的密集模型转化为强大的微型“推理引擎”。
- 从探索不同 RL 机制中吸取的教训,以及为什么某些方法在大型实验中表现不佳。
将这篇博客视为对 DeepSeek-R1 管道中最大飞跃(和险些失败)的技术透视。
2. 动机与背景
2.1. 为什么纯 RL 适合推理?
传统上,大型语言模型(LLM)推理能力的重大飞跃都来自提供大量精心标注的数据。DeepSeek-R1 质疑了这一假设。其核心假设简单却大胆:*我们能否只奖励模型的正确性,让它自己发现最佳的思考方式?* 通过从一开始就摒弃监督微调(在 DeepSeek-R1-Zero 的案例中),研究团队让 LLM 纯粹从奖励信号中找到自己的思维链模式。
DeepSeek-R1-Zero 方法使用 Group Relative Policy Optimization (GRPO) 算法,该算法在没有评论模型的情况下优化策略,从而节省了计算资源。GRPO 更新规则的核心如下:
其中,组中每个样本的优势(A_i)计算如下:
这些方程封装了模型如何学习的数学基础——分组优化其策略并规范奖励,以便在没有明确的逐步指导的情况下改进决策制定。
2.2. 涌现行为:“顿悟时刻”现象
大型语言模型(LLM)大规模强化学习训练中一个引人入胜的结果是,复杂、自我反思行为的自发涌现。DeepSeek-R1-Zero 表明,经过足够的更新,模型开始:
- 延长解决难题的思维链长度,
- 如果早期方法可能失败,则重新评估步骤,
- 展示真实的“顿悟时刻”,即模型后退一步,发现错误并自行纠正。
对于习惯传统微调的专家来说,看到一个大型语言模型(LLM)纯粹通过强化学习信号自发“学会更好地思考”是相当令人震惊的。仅这一发现就预示着强化学习驱动的自我改进将带来重大机遇。
3. DeepSeek-R1-Zero:无网格强化学习
DeepSeek-R1-Zero 从一个基础大型语言模型 (LLM) 开始,并且关键在于,它**没有**进行任何监督微调。研究团队引入了:
- 准确性奖励: 检查模型最终答案的正确性(适用于数学、代码、逻辑)。
- 格式奖励: 激励结构化的思维链,例如,
<think> ... </think>
标签。
通过优化这些奖励,模型在 AIME 2024 数学基准测试中的 pass@1 从 15.6% 飙升至 71.0%——与已有的顶级模型不相上下。更令人惊讶的是,通过多数投票采样,它达到了 86.7%——超过了 OpenAI 在相同数据集上的 o1-0912。
重要性
- 模型*学会了*如何在没有任何“扶持”的情况下通过一系列任务进行推理。
- 改进轨迹表明,它自我发现了解决问题的方法(如反思、验证等),而许多人曾认为这需要精心策划的数据。
但存在一个缺点: 输出结果常常混乱不清——语言混杂、缺乏用户友好的结构,偶尔还会出现奇怪的修辞手法。下一代模型引入了“冷启动”数据来解决这些问题。
4. DeepSeek-R1:将冷启动与大规模强化学习相结合
接下来的问题是,注入**少量监督“冷启动”数据集**(数千个经过精心策划、用户友好的长思维链样本)是否能解决可读性和语言混合问题——并可能提高最终性能。团队设计了一个多阶段管道:
- 冷启动: 在数千个精心策划、用户友好的长思维链上对基础模型进行微调。
- 推理导向的强化学习: 通过数学、编码和逻辑任务扩展强化学习。这一次,添加**语言一致性奖励**,以促使模型在单一语言中保持连贯性。
- 拒绝采样 + 监督微调: 从强化学习模型中采样正确、结构良好的思维链,用通用能力数据(写作、问答、自我认知)增强它们,并训练一个新的基础检查点。
- 跨场景强化学习: 第二个强化学习阶段包括推理任务**和**通用任务,以实现“有用性”和“无害性”。
主要成就
- 最终模型 DeepSeek-R1 现在在数学和编码任务上与 OpenAI-o1-1217 旗鼓相当。
- 它在 MMLU 和 GPQA Diamond 等知识基准测试中显著超越了其前身(DeepSeek-V3),尤其是在 STEM 重度主题方面。
注意: 最少量的精选数据与大规模强化学习的协同作用,是许多领先大型语言模型(LLM)管道中重度前期监督微调的强大替代方案。
5. 蒸馏:将高级推理模式转移到更小的模型
为什么选择蒸馏? 训练一个 70B 模型(如 DeepSeek-R1)进行大规模强化学习成本高昂——对于小型研究实验室或组织来说,往往遥不可及。然而,最终的 DeepSeek-R1 可以为各种任务生成大量正确解决方案。因此,作者利用了一种简单但强大的方法:**直接从 DeepSeek-R1 的精选输出中训练小型模型(1.5B、7B、8B、14B、32B)。**
亮点
- 蒸馏后的基于 Qwen 的 7B 模型在数学和代码任务上击败了一些**大得多**的开源模型。
- 蒸馏后的 14B 模型在某些推理基准测试中创下新纪录——证明,如果有一个强大的教师模型,较小的密集型学生模型也能以惊人的高保真度复制高级推理能力。
结论: 从零开始在较小的基础模型(如 7B 或 32B)上进行强化学习根本无法与从更强大的教师模型进行蒸馏竞争。较小的模型,如果只依赖强化学习,其性能会停滞在更低的水平,并且成本更高。蒸馏成为将高级推理行为迅速传播到新架构或更小规模模型的“秘密武器”。
6. 陷阱与不成功尝试
实验结果显示:
- 过程奖励模型(PRM) 发现,在大规模范围内稳健地定义或训练分步正确性信号是困难的。
- 蒙特卡洛树搜索(MCTS) 用于分层解决方案探索时,面临生成空间中的组合爆炸问题以及脆弱的价值模型。
- 这些方法并非注定失败,但它们在用于 DeepSeek-R1 的大规模强化学习环境中被证明过于笨拙。
对于考虑**内部**强化学习(RL)管道的专业人士而言:这些经验突出了将搜索或逐步奖励系统应用于大型语言模型(LLM)输出等大型序列的复杂性。
7. 更广泛的影响和未来方向
7.1. 通用能力与专业推理
DeepSeek-R1 在复杂对话、角色扮演或结构化 JSON 输出方面有时会落后于其老版本(如 DeepSeek-V3)。我们如何将高级思维链“大脑”与成熟的交互功能统一起来?作者建议,下一波强化学习(RL)扩展可以直接将多轮任务和高级 API 纳入思维链中。
7.2. 语言混合与多语言支持
DeepSeek-R1 的训练专门针对英语和中文进行了优化,偶尔会导致“语言冲突”。未来的扩展可能会纳入细粒度的语言检测奖励或多语言思维链对齐。
7.3. 软件工程用例
尽管编码结果表现出色,作者指出,需要大量上下文或专业推理的工程任务仍然是强化学习(RL)领域的一大挑战。加快代码正确性的强化学习评估循环并非易事,但影响巨大。异步或更增量的奖励机制可能是下一个重大突破。
7.4. 提示工程敏感度
与旧模型不同,少数样本提示往往会**损害** DeepSeek-R1 的性能。更精简的零样本指令似乎效果更好。这对于高级用户来说是一个有趣之处——如果您采用基于思维链的强化学习模型,值得在您自己的环境中探索。
8. 总结思考
DeepSeek-R1 家族,特别是 DeepSeek-R1-Zero,从根本上证明了大规模强化学习可以有机地培养强大的推理模式——即使没有任何监督“拐杖”。然而,DeepSeek-R1 的最终版本展示了少量精选数据集与多阶段强化学习的实际协同作用,以确保**能力**和**可用性**兼备。
对于研究大型语言模型(LLM)训练管道的专家来说,从经过全面强化学习优化的教师模型中进行蒸馏,是将高级推理能力传播到不同模型尺寸的最具成本效益的方法之一。同时,奖励欺骗、蒙特卡洛树搜索(MCTS)复杂性和过程奖励方法的局部成功经验都是警示性的案例。
简而言之,DeepSeek-R1 是一个里程碑,它促使我们重新思考强化学习在塑造真正“智能”的大型语言模型(LLM)中的作用,并强调了开放式人工智能公司对开源社区的贡献远超 OpenAI。