🌁#88: DeepSeek能否激发全球协作?
我们重点关注 DeepSeek 意外发布对韩国、日本和欧洲国家被忽视的影响,以及它对全球开源社区可能意味着什么
--
本周图灵邮报
- 周三,《AI 101,模型》:什么是 Mamba 混合体?
- 周五,《代理工作流》:推理与规划:技术深度解析
🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!
DeepSeek-R1 的出现及其随之而来的地缘政治紧张局势
一个月前,即2025年1月,一家充满前景的中国AI初创公司DeepSeek发布了其推理模型DeepSeek-R1,给全球AI产业带来了巨大冲击。DeepSeek以“开源策略”和“计算资源高效利用”为双轴,提供了与OpenAI o1性能相媲美但价格仅为十分之一的模型,从而在中美之间、封闭模型与开放模型之间创造了新的竞争格局。在此期间,我们对这些国家的开发者、用户和政府的反应有了很多了解。今天,我们希望弥合这一差距,概述包括欧洲国家以及日本、韩国等亚洲市场在内的主要参与者如何回应DeepSeek的举动。
主要国家的反应:“AI 民族主义”与“开源 AI”的奇特共存
在 DeepSeek 事件之后,世界主要国家正以各自的战略做出回应。
美国立即开始加强其自身的AI能力。特朗普总统上任后立即宣布了5000亿美元的“星际之门”AI基础设施计划,宣称要让美国成为“世界AI之都”。同时,他正在撤销现有的行政命令,并进一步加强对中国AI技术的出口管制。美国国会中的一些人甚至采取强硬立场,认为“应彻底封锁中国AI”,‘排他性AI民族主义’的论调似乎变得更加明显。
欧洲传统上一直走在“AI伦理与监管”的前沿,但由于担心过度监管会导致欧洲AI竞争力下降,在DeepSeek事件后似乎正在寻求“放松监管”和“开放”的道路。在最近的巴黎AI峰会上,包括法国总统马克龙在内的一些欧盟领导人公开支持一项计划,旨在为新的AI法律提供灵活性,以培育其本国的初创企业。
韩国和日本等亚洲国家似乎正在强调“保护本国公民”和“技术主权”。
韩国政府在DeepSeek发布后立即禁止关键政府官员访问DeepSeek,这是对日益增长的担忧(即敏感信息可能因中国AI模型而泄露)的先发制人反应。在私营公司中,现代汽车集团和韩华集团等主要集团已禁止在其公司内部使用DeepSeek,并且一些公司正在积极开发自己的韩国AI平台。
日本也开始重组其AI战略。随着DeepSeek影响力的扩大,日本政府宣布将重点关注安全和伦理问题,同时制定AI开发和利用的基本计划。此外,它开始审查将AI产业促进政策与风险管理相结合的对策,以及为应对AI时代电力需求激增而制定的能源政策。
虽然许多国家都在关注“保护和培育本国技术”,但他们有一个共同点:他们都大声疾呼利用“开源AI”来加强本国产业和生态系统。
我认为开源的原始核心价值是“通过无界协作加速创新”。正如软件行业已经证明的那样,当世界各地的研究人员和开发人员在一个开放的环境中参与时,技术进步会突飞猛进。
AI领域也不例外。Meta首席科学家Yann LeCun博士也指出,DeepSeek的成功“并不意味着中国已经超越美国,而是开放模型正在超越封闭模型。”
然而,当前这种可以称之为“AI民族主义”的紧张气氛,与“通过开源AI发展AI生态系统”能否共存?
即使困难重重,也必须扩大全球合作,以实现开源 AI
在“开源与封闭”、“合作与自力更生”的两难选择中,各国面临着发展自身技术能力并参与国际规范形成的双重任务。我们必须清楚地记住,将人工智能能力局限于国内或仅投资加强自身人工智能能力的民族主义做法,不仅会减缓我们所期望的人工智能创新,还会阻碍协作的良性循环。
历史上已经证明,当世界各地的优秀人才聚集集体智慧时,比一个组织或一个国家独自工作时,可以实现更快、更安全的发展。
此外,除了美国和中国,开放和协作对大多数国家来说并非可选项,而是必不可少的。
各国AI初创生态系统规模与各国AI研发协作状况对比。图片来源:Turing Post
如果我们比较世界主要国家的“AI初创生态系统规模”与“国家间AI研发合作水平”,我们可以看到,诸如美国和中国等国家拥有规模庞大的AI初创生态系统,它们可以独自享受“开源AI”的益处。
然而,即使是亚洲的韩国和日本等国,尽管已在大力投资AI产业发展,但其各自的AI初创生态系统规模有限。因此,仅仅以“加强自身开源AI生态系统”和“民族主义投资以独立发展AI能力和产业”为口号,无法引领国内AI技术创新和产业增长。
法国支持像Mistral这样的公司,同时将自己宣传为“开源AI中心”,是因为它意识到欧洲必须融入全球合作网络才能具有竞争力。最终,创新是在全球协作的开放环境中实现的,安全也通过国际合作得以保障。在一个由美国AI初创公司今天开发的服务明天就能被地球另一端的国家的人们使用的时代,如果我们不勇敢地摒弃AI民族主义观念,思考如何扩大与其他国家的协作与合作,并进行健康竞争,我们最终将被孤立和落后。我所居住的韩国、日本以及无数其他国家都面临着双重挑战:如何在安全和产业竞争力方面保护AI主权,同时又不至于在开放生态系统中落后。然而,我们绝不能忘记:跨国界共享的知识是AI技术和产业发展的燃料。回顾过去,由加拿大和英国的学者主导的深度学习研究,也正是在美国硅谷的资本和各国的数据资源结合时才得以蓬勃发展。没有这种全球协作和价值链,今天的AI创新可能吗?Python、PyTorch和TensorFlow等核心工具,作为开源运动的产物,由世界各地的开发者(而非某个特定国家)创建并广泛使用,极大地加速了AI的发展。如果每个国家都以封闭的方式控制这些知识和工具,并让世界各地的众多开发者难以协作,AI发展的速度将比现在慢得多,其成果也将仅限于少数国家或地区享有。
即使在DeepSeek事件引发的当前冲突和技术霸权竞争中,我们也不能忽视“为人类共同发展而合作”的大局。现在是需要智慧来协调“全球合作”和“国家利益”的时候。
今天的社论由Turing Post Korea编辑Ben Eum撰写。
精选合集
我们正在阅读/观看:
- 新触控界面 作者:Will Schenk
- LLMs 和世界模型 作者:Melanie Mitchell 第一部分 和 第二部分
- 巴黎AI行动峰会的新口号:安全第三 作者:Newcomer
- Dwarkesh Patel对Noam Shazeer和Jeff Dean的采访
那些“常见嫌疑犯”的新闻 ©
Anthropic 频频登上新闻头条
- 新混合模型 Anthropic 携新混合模型回归,提供性能的滑动尺度以平衡成本和能力。与 OpenAI 的“低-中-高”粗暴选项不同,该模型能精确调整——非常适合处理复杂工作负载的企业。早期结果显示,它在实际编码任务中优于 OpenAI 的最佳模型 →The Information
- Anthropic 经济指数 使用 Claude.ai 上数百万匿名对话数据,追踪 AI 对劳动力市场的影响。初步报告显示,AI 在软件开发和技术写作领域有很强的存在,任务倾向于增强而非自动化。中高收入职业的 AI 采用率最高。数据集是开源的,鼓励研究人员分析趋势并指导不断发展的 AI 驱动经济的政策决策 →其博客 以及他们关于同一主题的论文 哪些经济任务与AI结合?
- Snowflake + Anthropic:数据驱动型 AI Snowflake 与 Anthropic 合作,将 Claude 3.5 Sonnet 嵌入到 Cortex Agents 中,为企业数据分析带来自然语言交互。早期测试显示,在文本到 SQL 任务中表现出色——这是 AI 驱动决策的 promising step。Anthropic 首席产品官 Mike Krieger
“Anthropic 最初的出发点就是‘我们如何安全、负责任地部署AI?’最初有人会问,‘这会减缓你们的进展吗?这会让你们的模型吸引力下降吗?’但事实上,我们发现恰恰相反,拥有一个具备适当防护措施、难以越狱、并经过负责任训练的模型,实际上是一个优势,因为它确实增强了部署端的信任。将数据和AI智能结合起来以真正为客户创造价值,并且以安全负责的方式进行,我认为这就是这次合作如此有效的原因。”
OpenAI 也在紧随其后
- OpenAI 还更新了他们的模型规范 →他们的博客
- 并分享了推理最佳实践并解释了他们的模型: o1 和 o3-mini 等模型在复杂推理、决策和多步规划方面表现出色,非常适合法律、金融和工程领域的任务。GPT 模型在更简单的任务中速度更快,成本效益更高。成功的 o 系列用例包括处理模糊信息、在大数据集中查找关键细节和高级代码审查。有效的提示清晰直接,几乎不需要逐步指导或少量示例 →他们的博客
Galileo Labs 对AI代理进行排名
- Galileo Labs 在 Hugging Face 上推出了新的代理排行榜,基准测试大型语言模型处理真实世界任务的能力。这是开发人员选择代理应用程序模型的有用参考 →Hugging Face 上的排行榜
值得关注的模型:
- LM2:大型内存模型 引入 LM2,一种带有内存模块的 Transformer 架构,旨在改进长上下文推理,性能优于 RMT 37.1%,并在多跳推理中表现出色 →阅读论文
- NatureLM:解码自然语言以进行科学发现 跨科学领域训练 NatureLM,增强 SMILES 到 IUPAC 翻译和 CRISPR RNA 设计等任务,以实现跨领域应用 →阅读论文
- Goedel-Prover:开源自动定理证明的前沿模型 利用 Goedel-Prover 推进形式证明生成,通过专家迭代和语句形式化工具在 miniF2F 上实现 57.6% 的 Pass@32 →阅读论文
最新研究论文,方便您分类查阅
本周有不少顶级研究论文,我们将在每个部分用🌟标记它们。
LLM 架构、训练与优化
- 大型语言模型中的深度诅咒 – 识别深层如何由于 Pre-LN 方差增长而失去学习潜力,提出 LayerNorm Scaling 以提高效率
- 🌟 俄罗斯套娃量化 – 引入 MatQuant,一种多尺度量化方法,通过混合 int2、int4 和 int8 层实现高效模型部署
- InfiniteHiP:将语言模型上下文扩展到 300 万个令牌 – 使用模块化分层剪枝将单个 GPU 上的上下文容量扩展到 300 万个令牌
- 🌟 带有连续概念的 LLM 预训练 – 提出了 CoCoMix,它将令牌嵌入与抽象概念表示混合,以提高训练效率
- 蒸馏缩放定律 – 提出预测学生 LLM 性能的定律,基于教师规模、数据和计算资源
- TransMLA:多头潜在注意力是你所需要的一切 – 引入 TransMLA,通过压缩 KV 状态将基于 GQA 的模型转换为更高效的 MLA 模型
推理与认知能力
- 大型语言模型中的逻辑推理:一项调查 – 分析逻辑推理方法和基准,找出一致性和泛化方面的差距
- 🌟 LLM 可以轻松从演示中学习推理 – 表明 LLM 在学习复杂推理任务时更多地依赖结构模式而非内容
- ReasonFlux:通过扩展思维模板实现分层 LLM 推理 – 引入结构化模板和分层强化学习,以实现更高效的数学推理
- 从蛮力到脑力:斯坦福大学 s1 如何超越 DeepSeek-R1 – 开发一种数据高效的推理模型,该模型使用最少的高质量示例以获得卓越性能
- 🌟 忘记你对 LLM 评估的了解——LLM 就像变色龙一样 – 提出了 C-BOD,一种基准过拟合检测器,揭示了 LLM 对表面模式的依赖
- LLM 肩上的随机鹦鹉 – 引入 PHYSICO,一个测试 LLM 抽象物理推理的基准,揭示了尽管文本表现强劲,但仍存在差距
强化学习与自适应行为
- 🌟 探索结果奖励学习数学推理的极限 – 引入 OREAL,一个使用基于结果的奖励来提高数学表现的 RL 框架
- 使用多智能体强化学习训练社交推理语言模型 – 开发了一个基于强化学习的框架,训练 LLM 以类似人类的沟通技巧驾驭社交推理游戏
代理开发与交互
- 迈向互联网规模的代理训练 – 引入 InSTA,一个大规模训练管道,以提高网络代理的导航和交互技能
- 🌟 赫菲斯托斯:通过持续预训练提升代理能力 – 开发了一个专用语料库,以提高 LLM 代理的推理、规划和函数调用能力
- WorldGUI:GUI 自动化的动态测试 – 提出了一个基准来评估 LLM 在动态 GUI 任务中的表现,反映真实世界的应用程序挑战
- CoSER:协调基于 LLM 的人物模拟 – 引入了一个模拟人物和基于角色的对话数据集,用于训练 LLM 模仿各种人物
数据集与数据生成
- 🌟 SynthDetoxM:多语言去毒数据集 – 创建了一个合成多语言数据集,用于对跨多种语言的文本进行去毒,从而提高模型性能
- 将预训练扩展到千亿数据以用于视觉语言模型 – 探索将 VLM 预训练扩展到 1000 亿图像-文本对如何改善文化多样性和低资源语言的性能
- 使特定语言的 LLM 适应推理模型 – 提出了一种经济高效的技术,用于将特定语言模型与推理能力相结合,以提高性能
今天就到这里。感谢您的阅读!
如果本文能帮助您的同事增进对人工智能的理解并保持领先,请分享给他们。