Open-R1:DeepSeek-R1 的完全开放复现

发布于 2025 年 1 月 28 日
在 GitHub 上更新

什么是 DeepSeek-R1?

如果你曾为一道棘手的数学题而苦恼,你就会明白多花点时间仔细思考和解决问题是多么有用。OpenAI 的 o1 模型表明,当 LLM 被训练做同样的事情——通过在推理过程中使用更多计算资源——它们在解决数学、编码和逻辑等推理任务方面会显著提高。

然而,OpenAI 推理模型背后的秘诀一直是一个严守的秘密。直到上周,DeepSeek 发布了他们的 DeepSeek-R1 模型,迅速引爆了互联网(以及股市!)。

除了表现与 o1 相当甚至更好之外,DeepSeek-R1 的发布还附带了一份详细的技术报告,概述了其训练方法中的关键步骤。这种方法包含了多项创新,其中最值得注意的是纯粹的强化学习应用于教基础语言模型如何在没有**任何**人工监督的情况下进行推理。如下图所示,如果您拥有一个功能强大的基础模型和高质量的数据混合,构建一个强大的推理模型现在变得非常简单

DeepSeek-R1 training pipeline

然而,DeepSeek-R1 的发布留下了几个悬而未决的问题:

  • 数据收集:特定于推理的数据集是如何整理的?
  • 模型训练:DeepSeek 未发布任何训练代码,因此尚不清楚哪些超参数效果最佳,以及它们在不同模型家族和规模之间有何不同。
  • 缩放定律:训练推理模型时,计算和数据之间存在哪些权衡?

这些问题促使我们启动了 Open-R1 项目,这是一项系统性地重建 DeepSeek-R1 的数据和训练流程,验证其主张,并推动开放推理模型边界的倡议。通过构建 Open-R1,我们旨在提供强化学习如何增强推理的透明度,与开源社区分享可复现的见解,并为未来的模型利用这些技术奠定基础。

在这篇博客文章中,我们将深入探讨 DeepSeek-R1 背后的关键要素、我们计划复制的部分,以及如何为 Open-R1 项目做出贡献。

让我们开始吧 🚀!

他们是如何做到的?

DeepSeek-R1 是一个基于 DeepSeek-V3 基础模型构建的推理模型。像任何优秀的推理模型一样,它始于一个强大的基础模型,而 DeepSeek-V3 正是如此。这个 671B 专家混合(MoE)模型的表现与 Sonnet 3.5 和 GPT-4o 等重量级模型不相上下。尤其令人印象深刻的是它的训练成本效率——仅需 550 万美元——这得益于多令牌预测(MTP)、多头潜在注意力(MLA)等架构改进以及大量的(确实,非常多)硬件优化。

DeepSeek 还推出了两个模型:DeepSeek-R1-Zero 和 DeepSeek-R1,每个模型都有独特的训练方法。DeepSeek-R1-Zero 完全跳过了监督微调,完全依赖于强化学习(RL),使用群组相对策略优化(GRPO)来提高过程效率。模型使用一个简单的奖励系统进行引导,根据答案的准确性和结构提供反馈。这种方法帮助模型开发了有用的推理技能,例如将问题分解为多个步骤并验证自己的输出。然而,它的回复通常缺乏清晰度,并且难以阅读。

这就是 DeepSeek-R1 的用武之地。它从一个“冷启动”阶段开始,对一小组精心制作的示例进行微调,以提高清晰度和可读性。在此之后,它经历了更多的强化学习和精炼步骤,包括使用基于人类偏好和可验证奖励的机制拒绝低质量输出,从而创建了一个不仅推理良好,而且能产生精美且一致答案的模型。

DeepSeek-V3 architecture

这一切听起来很棒,但实际缺少了什么呢?让我们来看看拼图中缺失的部分。

Open-R1:缺失的部分

DeepSeek-R1 的发布对社区来说是一个巨大的福音,但他们并没有发布**所有东西**——尽管模型权重是开放的,但用于训练模型的数据集和代码却没有 😢。

Open-R1 的目标是构建这些缺失的部分,以便整个研究和工业社区可以使用这些方法和数据集构建类似或更好的模型。通过公开进行这项工作,社区中的每个人都可以做出贡献!

如下图所示,这是我们的攻击计划:

  • **第一步:** 通过从 DeepSeek-R1 中提取高质量推理数据集来复制 R1-Distill 模型。
  • **第二步:** 复制 DeepSeek 用于创建 R1-Zero 的纯 RL 管道。这将涉及为数学、推理和代码策划新的大规模数据集。
  • **第三步:** 展示我们可以通过多阶段训练从基础模型 → SFT → RL。
Open-R1 steps 这些合成数据集将允许所有人通过简单地对其进行微调,将现有或新的 LLM 微调为推理模型。涉及 RL 的训练方法将作为任何人从头开始构建类似模型的起点,并将允许研究人员在此基础上构建更先进的方法。

请注意,我们不想止步于数学数据集。在其他领域,如代码,以及医学等科学领域,推理模型可能产生重大影响,潜力巨大。

这项倡议不仅是为了复现成果,更是为了与社区分享见解。通过记录有效、无效以及原因,我们希望能够避免他人将时间和计算资源浪费在无用的路径上。

如果这听起来很有趣,我们很乐意得到你的帮助!无论是贡献代码,还是加入Hugging Face上的讨论,都有很多方式可以参与。让我们一起构建吧!🚀

社区

评估数据在哪里?没有它,你就不能称之为复现。

·

没错,但目前看来似乎没有什么可评估的。我猜最终目标是训练一个新的推理模型,然后使用与 o1 和 DeepSeek-R1 相同的评估指标。

这很有趣,我一直在问自己为什么作者在这里提出的问题没有被其他人问到?我相信他们所做的工作是值得纪念的,但同时我也想知道,如果他们本应完全开放,为什么不把这些缺失的部分放上去。
为什么即使没有复现和理解创新,他们也能如此大地影响市场?

·
文章作者

你好!这篇博客文章是对该项目的介绍,并不是说我们已经复现了 R1。当我们拥有缺失的部分时,我们肯定会分享它们。你可以期待模型和数据集被上传到这个Hugging Face 组织,并且代码会放在这个GitHub 仓库

很有趣的阅读,很高兴看到更多向这个方向的努力:更多的优化,更少的暴力。
还想知道作者用什么工具创建了流程图。

·
文章作者

Excalidraw 👀

我很高兴像这样的倡议已经存在,我将尝试做出贡献:)

·
文章作者

期待中!🚀

已删除

如此种族主义的文章

·

你在说什么?

很高兴看到这个开放式复现项目启动了!

对于第一步,请查看 https://github.com/open-thoughts/open-thoughts

https://x.com/ryanmart3n/status/1884284101265612856

让我们一起完成这件事!

·
文章作者

看到整个开源社区团结起来真是太棒了!

有人知道 R1 的实际训练成本吗?我在论文或公告中找不到。媒体报道的 600 万美元成本只是 V3 训练成本的数字吗?

·

糟糕...

有没有人要求 DeepSeek 团队发布他们的训练数据和代码,或者至少与这样一个独立的复现项目私下分享?他们是否拒绝了这样的请求?

一个忠实的复现取决于使用相同的数据集和超参数。否则,与已发布的基准之间的任何重大差异都很难确定——无论是由于训练数据差异还是复现方法本身。

·
文章作者

从历史上看,他们从未发布过其 LLM 训练的代码或数据集,所以我预计这次也不会有什么不同。如果他们发布了,那当然会很棒!

与此同时,我们只能做出最佳猜测,看看我们自己能否做到。

您提供了 Deepseek 推理训练的良好复现过程。我将尝试类似的方法。

这是非常有用的信息,当代码发布后,我们是否可以针对特定用例进行微调?

·
文章作者

是的,当然!

请考虑移除有偏见、受污染或未对齐的训练数据,并努力从爬取中移除受版权保护的作品。这将使模型更具可用性。如果您重复使用了 Anthropic 的策划检查,这可能也会有所帮助,移除明显有偏见的数据可能会增加很多价值。我们不希望再有一个受污染、未对齐的开源模型,对吧?而且没有公司会使用 Deepseek 或重复使用它的模型,对吧?
我们感谢您为人类利益所做的工作,我们希望如此。
来自新泽西的 Miike C

·

所以你的意思是要求用另一种审查来取代现有的审查?

等不及了!希望模型能不受审查,但无论你们能做什么都行!很高兴看到开源社区蓬勃发展。我没那么聪明,帮不上什么忙,但我可以提供精神支持哈哈

大家好,我甚至只是想找到 DeepSeek-V2 的代码,以便完全理解多头潜在注意力。你们似乎连 Hugging Face 中都没有它的代码。还是我错过了什么?在 src/transformers/models 中没有看到任何东西。MLA 在他们的论文中没有正确描述,所以有它的代码很重要。

·
文章作者

我能为这个项目做贡献吗?

·

我想知道 R1 和 R1-zero 的训练数据是什么。关于去年秋天可能违反服务条款的 OpenAI API 调用,有什么新消息吗?

让我们一起构建!

这个项目给了我灵感。目前,我开发了一个增强型 transformer。目标是找出 deepseek 中等效的 SFT 组件。理论部分和数值示例都运行良好。我现在正在一个小型 LLM 中实现它。希望我们能在几周内看到基准测试结果。感谢您的启发。

查尔斯

发布权重意味着开放二进制,即免费软件(与 SAAS 相对)。但网络实际的蓝图/设计(用高级语言定义)并未提供,因此它甚至不算部分开放(源代码)。

很棒的工作!

附言:为什么 OpenAI 不改名呢?因为它正在引导 AI 行业走向另一个方向。

如果 Open-R1 需要任何帮助,请告诉我。

进展如何?自二月以来我没有看到更多评论或更新。

注册登录 评论