Anthropic 首席执行官:DeepSeek-R1 是人工智能领域的一场革命吗?
Dario Amodei 关于导致华尔街崩溃的模型论文。 📜
Anthropic 首席执行官 Dario Amodei 刚刚发表了他对这个仅有 10 天历史的中国模型的看法,该模型本周在华尔街引发恐慌,导致英伟达 (NVIDIA) 一天之内市值蒸发 17%。简而言之,Amodei 表示:“这个模型并没有那么出色,但它很好,我们不要害怕 DeepSeek,但为了以防万一,要加强对中国的出口限制。”
让我们来解读并置于语境中👇👇
Amodei 从一个高层次的视角开始,阐述了人工智能发展的 3 种动态
- 缩放定律:众所周知,首先是在训练中发现的:当你将计算量增加 10 倍(假设你没有使用不当)时,性能将可靠地以固定步长提高。
- 曲线平移:算法效率不断提高,从而以固定的成本提高我们获得的结果。早在 2020 年,一篇论文就将效率增益量化为每年 1.68 倍,现在 Amodei 将其定为每年 4 倍。此外,他提到了 Ywitter 上大家都在讨论的“杰文斯悖论”:在固定性能下,价格/能源消耗持续下降,但这种增益会立即被用于提高性能——因为潜在的增益是巨大的。
- 范式转变:早在 2020 年,范式是制造更大的预训练模型。现在,将强化学习 (RL) 加入其中解锁了一种新的缩放定律,从而使模型性能跃升。
强化学习的范式转变实际上是在 o1 中发现的。在这方面,Amodei 因此不认为 R1 是一项工程突破:它的基础模型 DeepSeek-V3 在几个月前发布,才更像是一项真正的突破。
➡️ 在这里,我们不要忘记这是 Anthropic 的首席执行官在讲话:“推理没那么难,基础模型更重要”。让我们记住 Anthropic (尚未) 提供推理模型,他们的旗舰产品仍然是 Claude-3.5-Sonnet (它很棒),所以他们可能有意最小化推理模型。
Amodei 承认 DeepSeek-R1 工程中的两个伟大元素
- 优秀的 KV 缓存管理
- 专家混合 (Mixture of Experts) 的良好使用,这是一种允许令牌动态路由到多个专家模型中的任何一个以进行更好处理的架构:这种架构允许网络的不同区域针对不同的任务进行专业化,从而在激活更少参数的同时理论上达到密集模型的准确性。
但他接着说,DeepSeek-R1 并没有那么出色。尽管 Twitter 上的大众嘲笑他如此努力地应对现实,但我认为他提出了一些很棒的观点。
💰 与 OpenAI/Anthropic/Google/Meta 模型相比,DeepSeek-R1 真的便宜得离谱吗? Claude-3.5-Sonnet 的成本是多少?=> “训练成本为数千万美元”。所以 DeepSeek 的训练成本 550 万美元确实很低,但并非异常低。可以说,主要成本是大型人工智能实验室的实验和预训练模型。此外,DeepSeek 真的只使用了几千个旧的 A100 处理器吗?Amodei 似乎对此表示怀疑 (他远非孤身一人):有传言说 DeepSeek 可能使用了 5 万个 Hopper 代 GPU:不一定是 H100,可能是 H20 到 H800,这取决于 DeepSeek 如何绕过美国的出口限制。
Amodei 提议将模型性能重新置于该领域整体快速进步的视野中:与这条改进曲线相比,他说 R1 在准确性方面的成就并不突出,更糟的是,它们比美国模型晚了。价格上的成就是令人印象深刻的,但也不是一项突破。
➡️ 这就是“挽尊”最厉害的地方。Amodei 认为 DeepSeek V3 不如原始的 Sonnet 3.5 好,后者“早了 7-10 个月”。但他提到在编码等关键任务上表现更好的 Sonnet 实际上是 Sonnet-3.5 的最新版本,有时非正式地称为 3.6。你总是需要适度的沙文主义!
➡️ 此外,尽管他关于将模型视为曲线的观点很好,但我认为实际上有两条曲线:中国开源模型现在已经追上了美国闭源模型。鉴于其发展势头,中国模型可能很快就会领先。
这大概就是为什么,在说了“嗯,DeepSeek 的技术没那么好”之后,Amodei 的论文最终强烈主张出口管制,秉持“我们不要害怕 DeepSeek 的研究人员,而是控制他们的专制政府,并通过出口管制巩固西方的优势”的论调。
➡️ 鉴于军事技术几年领先可能造成的巨大差异(参见海湾战争),这可能确实有一定道理。
尽管有上述警告,我发现他的这篇短文真的很有趣,你应该去读一读!👉 https://darioamodei.com/on-deepseek-and-export-controls
(他的上一篇文章《爱意之机器》也很棒)