🌁#85: 好奇心、开源与时机:DeepSeek 惊人成功背后的秘诀
开源思维、不懈好奇心和战略计算如何重塑人工智能规则并挑战西方公司,以及一份优秀阅读清单和精选研究合集
🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!
当我们于 2024 年 8 月首次报道 DeepSeek 模型时(我们开放了那篇文章供所有人阅读,请务必阅读),它并没有引起太多关注。这让我很惊讶!那时,DeepSeek 已经是人工智能领域好奇心驱动研究最激动人心的例子之一,致力于开源其发现。他们还采用了一种引人入胜的方法:与许多争相打破基准的同行不同,DeepSeek 转而解决特定挑战,促进了超越传统指标的创新。即便如此,他们也展示了显著的成本降低。
“DeepSeek-Coder-V2 背后有什么特别之处,使其在编码和数学方面超越了 GPT-4 Turbo、Claude-3 Opus、Gemini 1.5 Pro、Llama 3-70B 和 Codestral?”
DeepSeek-Coder-V2,成本比其他模型低 20-50 倍,是 DeepSeek-Coder 的重大升级。它拥有更广泛的训练数据、更大更高效的模型、改进的上下文处理以及像 Fill-In-The-Middle 和强化学习等先进技术。(DeepSeek 模型内幕)
尽管 DeepSeek 在研究界引起了轰动,但它在更广泛的公众中仍然鲜为人知。但随后他们发布了 R1-Zero 和 R1。
通过这次发布,他们以典型成本的一小部分训练了模型,从而粉碎了行业基准并颠覆了市场。但你知道他们还做了什么吗?他们不仅证明了强化学习(RL)是推理所需的一切(R1 证明了 RL 的出色效果),而且他们还将试错法——RL 的基础——应用于自己的商业策略。之前被忽视的他们,精心策划了 R1 的发布时机。你捕捉到时机了吗?这是一场战略地震,震撼了市场,让所有人感到震惊
- 正如 ChinaTalk 所指出的:“R1 在特朗普总统上任期间的发布显然旨在在美国政策的关键时刻动摇公众对美国 AI 领导地位的信心,这与华为在前国务卿雷蒙多访华期间发布产品如出一辙。毕竟,R1 预览版的基准测试结果自 11 月以来就已经公开。”
- 发布时间恰好是中国农历新年前一周(今年是 1 月 29 日),农历新年通常持续 15 天。然而,节日前的一周通常比较平静,这为他们提供了一个完美的机会,可以超越其他中国公司并最大限度地提高他们的公关影响力。
因此,虽然 DeepSeek 模型家族是开源开发与不懈好奇心相结合的典范(DeepSeek 首席执行官梁文峰在采访中说:“许多人可能认为这背后隐藏着不为人知的商业逻辑,但实际上,它主要是由好奇心驱动的。”),但它也是冷酷计算和强化学习在模型和人类身上取得胜利的例子 :)。DeepSeek 展现了对如何玩转西方游戏并取得成功的深刻理解。当然,尽管当前的市场低迷令许多人担忧,但它很可能会很快复苏。然而,如果 DeepSeek 能够取得如此出色的成绩,西方公司需要迅速重新评估其战略并明确其真正的竞争优势。
对英伟达的担忧
当然,我们仍然需要大量的计算——每个人都渴望它。这是 DeepSeek 首席执行官梁文峰的一句话:“对于研究人员来说,对计算能力的渴望是永无止境的。在进行小规模实验后,总是渴望进行更大规模的实验。从那时起,我们就有意识地部署了尽可能多的计算能力。”
所以,我们不要把英伟达排除在外。我们可以指望的是黄仁勋保持领先地位以找到保持相关性的诀窍(如果你还记得的话,英伟达最初并不是一家人工智能公司)。但像 DeepSeek 这样的创新者的崛起可能会促使英伟达加倍致力于开放。除了技术优势之外,大力推动开源可以作为一个强大的公关助推器,加强英伟达在不断扩展的人工智能生态系统中的核心地位。
在我写这些关于英伟达的话时,他们发了一份关于 DeepSeek 的声明:“DeepSeek 是一个优秀的人工智能进步,也是测试时间扩展的完美例子。DeepSeek 的工作表明了如何使用该技术创建新模型,利用广泛可用的模型和完全符合出口管制的计算。推理需要大量的英伟达 GPU 和高性能网络。我们现在有三种扩展定律:预训练和后训练(仍在继续),以及新的测试时间扩展。”
所以——总结一下——DeepSeek 突破的主要启示是
- 开源和去中心化
- 保持好奇心驱动
- 将强化学习应用于一切
对于 DeepSeek 来说,这仅仅是个开始。随着好奇心继续推动其努力,它已经证明,突破不是来自垄断创新,而是来自分享创新。展望未来,正是这些原则将塑造人工智能的未来。
我们正在阅读(全是关于🐳)
这里收集了您需要了解的关于 DeepSeek 的所有精彩文章
- DeepSeek-R1:通过强化学习激励 LLM 的推理能力(论文)
- 最新发布(1 月 27 日):DeepSeek Janus-Pro
- “DeepSeek-R1 和探索 DeepSeek-R1-Distill-Llama-8B” (Simon Willison 的博客)
- 2024 中国开源年度报告(一份中文报告,但可以用 ChatGPT 很好地总结)
- [DeepSeek 常见问题] (https://stratechery.com/2025/deepseek-faq/) (Stratechery 出品,非常详细,我爱它)
- DeepSeek 与人工智能竞争的未来,与 Miles Brundage (China Talk 出品)
- DeepSeek 的深层根源:一切是如何开始的 (Recode China AI 出品)
- DeepSeek 意味着 AI 扩散是有保障的 (Import AI 出品。最喜欢的引用:“他们的关键创新在于表明,任何大型语言模型 (LLM) 都可以通过仅 80 万个精选的问答思维链样本转化为推理强手。”)
- Hugging Face 的科学团队完全重现并开源了 R1,包括训练数据和训练脚本 (GitHub 上)
是的,我同意默夫的看法
精选合集
AI 从业者的每周推荐👍🏼
使用 LM Studio 离线运行 DeepSeek 模型
- 安装 LM Studio:从 LM Studio 网站下载适用于您操作系统的版本。按照提供的安装说明进行操作。
- 下载 DeepSeek 模型:打开 LM Studio 并导航到“发现”选项卡。搜索“DeepSeek”并选择您想要的模型。点击“下载”以将模型保存到本地。
- 离线运行模型:下载完成后,转到“本地模型”部分。选择 DeepSeek 模型并点击“加载”。您无需互联网连接即可直接在 LM Studio 中与模型交互。
常见嫌疑犯新闻 ©
数据中心新闻
OpenAI、Oracle 和软银的 5000 亿美元“星际之门”人工智能合资企业
通过在德克萨斯州建设大型数据中心和能源设施的计划,“星际之门”旨在巩固美国在人工智能领域的霸主地位。英伟达和微软等合作伙伴为此与中国的激烈竞争增添了力量。特朗普支持它,马斯克贬低它。
Meta 的曼哈顿大小的 AI 飞跃
马克·扎克伯格的人工智能雄心规模较小(哈哈)——斥资 650 亿美元建造一个庞大的数据中心,足可包围曼哈顿。该数据中心将由 130 万块 GPU 提供动力,Meta 旨在彻底改变其生态系统并与美国的人工智能巨头竞争。人工智能大型项目时代已经到来。
Mistral 的 IPO 计划:抵抗万岁 法国人工智能初创公司 Mistral 不会出售。在融资 10 亿欧元后,首席执行官 Arthur Mensch 将目光投向 IPO,同时加倍投入开源 LLM。作为欧洲的强大力量,Mistral 的独立性预示着欧洲已准备好在全球人工智能竞争中强硬应对。
SmolVLM: Hugging Face 变得微小 Hugging Face 推出了 SmolVLM,迄今为止最小的两个基础模型。这个开源发布证明,当效率领先时,大小并不重要,为紧凑型人工智能开发设定了新标准。
OpenAI 的代理掌控一切 CUA(计算机使用代理)通过 Operator 重新定义了多任务处理,像数字高级用户一样与 GUI 无缝交互。从下载 PDF 到复杂的网络任务,它是我们离通用助手最近的一次。CUA 现已在 Operator 的专业用户研究预览中提供。博客。系统卡。
Google DeepMind Gemini 轨道上的一年 他们刚刚发布了 2024 年的概述。从 Gemini 2.0 在多模态 AI 方面的突破到 Willow 芯片在量子方面的飞跃,创新 soared。Med-Gemini 在医学考试中表现出色,AlphaFold 3 推动了分子科学的发展,ALOHA 重新定义了机器人技术。凭借灾难准备、教育工具和负责任的 AI 计划,DeepMind 平衡了尖端技术与全球影响力。这确实是一系列诺贝尔奖级别的成就。使用“光芯片”降低 AI 成本 Demis Hassabis 公布了谷歌的下一步计划——定制的“光芯片”,旨在大幅降低 AI 模型成本同时提高效率。这些芯片为 Gemini 2.0 Flash 提供动力,它拥有多模态 AI、1M token 内存以及 AGI 的“世界模型”愿景。DeepMind 的优势?拥有 AI 堆栈的每一层,从芯片到算法。
值得关注的顶级模型
- DeepSeek-R1:通过强化学习激励 LLM 的推理能力 利用多阶段强化学习增强 LLM 的推理能力,在 AIME 2024 和 MATH-500 等基准测试中超越竞争对手。
- Kimi K1.5:用 LLM 扩展强化学习 使用高效的强化学习方法扩展推理能力,优化长短思维链任务的令牌使用。
- VideoLLaMA 3:用于图像和视频理解的前沿多模态基础模型 通过多模态集成推进图像和视频理解,在时间推理和长视频任务中取得顶尖成果。
- Qwen2.5-1M 系列 支持 1M token 上下文的开源模型,利用稀疏注意力机制和闪电般的推理框架处理长上下文任务。
最新研究论文,方便您分类查阅
本周有不少顶级研究论文,我们将在每个部分用🌟标记它们。
专业架构和技术
- 🌟 细节中的魔鬼:引入负载平衡损失以训练专家混合模型。
- 🌟 专家自主模型:提出专家自选以提高专家混合模型的效率和可扩展性。
- O1-Pruner:长度协调微调:通过基于强化学习的剪枝减少推理模型中的推理开销。语言模型推理和决策制定
- 🌟 进化深层 LLM 思维:探索遗传搜索方法以增强规划任务的自然语言推理,实现卓越精度。
- 🌟 Agent-R:训练语言模型代理通过迭代自训练进行反思:开发了一个 LLM 框架,可使用蒙特卡洛树搜索和迭代优化进行自我修正。
- 🌟 推理语言模型:一个蓝图:提出了一个模块化框架,整合推理方法以实现推理能力的大众化。
- Step-KTO:通过逐步二进制反馈优化数学推理:通过逐步二进制反馈增强数学推理,以获得更准确的 LLM 输出。
- 测试时间偏好优化:引入了一个框架,用于在推理过程中将 LLM 输出与人类偏好对齐,无需重新训练。
多智能体系统与协调
- 🌟 SRMT:多智能体终身寻路共享内存:展示了在多智能体系统中使用共享内存以增强协调。
- Mobile-Agent-E:用于复杂任务的自进化移动助手:开发了一个用于移动助手的分层代理框架,具有自进化能力。
**生成式和检索增强模型
- 检索增强生成链:提出了一个用于检索增强生成的逐步查询和推理框架。
- 我们能用 CoT 生成图像吗?:整合思维链推理以实现组合和迭代图像生成。
多模态和 GUI 系统
- 🌟 UI-TARS:开创自动化 GUI 交互:推进基于视觉的代理实现类似人类的 GUI 任务性能。
- InternLM-XComposer2.5-Reward:改进多模态奖励建模,实现文本、图像和视频对齐。
鲁棒性、适应性和不确定性
- 🌟 用推理时间计算换取对抗鲁棒性:研究推理时间计算扩展以提高对对抗攻击的鲁棒性。
- 进化与机器学习的奈特不确定性盲点:倡导将进化原理融入机器学习以增强对不确定性的弹性。
人工智能的规划与执行
- 🌟 LLM 只有在被告知时才能规划:提出结构化状态跟踪以增强 LLM 的规划能力。
- 辩论有助于从弱到强的泛化:利用辩论方法改进模型泛化和对齐。
社会与认知洞察
- 人脑中对他人行为的多重预测:研究在模糊性下预测社会行为的神经机制。
人工智能基础设施和硬件
- 🌟 好东西都装在小包装里:提倡使用轻量级 GPU 实现可扩展且经济高效的 AI 基础设施。
感谢您的阅读!📨 如果您想直接在收件箱中收到我们的文章,请在此订阅