🌁#92: 开发者之战与编排之年
我们讨论了 OpenAI 和 Anthropic 在智能体 AI 方面的不同策略,重点介绍了新模型、相关论文和新闻
本周图灵邮报
- 星期三,AI 101,模型:QWEN 系列(与 DeepSeek 等相关)
- 星期五,访谈:Sharon Zhou,拥有百万以上学生和 Lamini 创始人的教育家
🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!
主要内容 – OpenAI 和 Anthropic:智能体 AI 的两条道路
OpenAI 和 Anthropic 在争取开发者的努力中采取了截然不同的路径。到目前为止,**Claude 3.7 被广泛认为是最佳的编码工具**,并且随着 **MCP (模型上下文协议) 越来越受欢迎**,Anthropic 似乎已经取得了早期优势。
但 OpenAI 最新发布的 **OpenAI 智能体平台** 暗示了一种不同的方法,这可能会改变局面。**Anthropic 专注于通过 MCP 实现标准化**,而 **OpenAI** 正在构建一个旨在实现可访问性和速度的**端到端生态系统**。
对比很明显。**Anthropic 的 MCP 采取了结构化、开放的方法**,为将 AI 模型连接到外部工具创建了一个通用标准。它在设计时考虑了灵活性和互操作性。同时,**OpenAI 专注于无缝集成**,通过 **智能体 SDK、响应 API、内置搜索和状态管理** 为开发者提供了一个完整的工具包——一种更直接、更实用的方法。
开发者喜欢开放标准,但也看重便利性。**OpenAI 紧密集成的工具降低了智能体构建的复杂性**,将**状态管理、工具集成和可观察性**等关键组件捆绑到一个单一平台中。最初作为实验性功能集开始的东西已经演变为一个更结构化的 **智能体 SDK**,并内置了安全保障和跟踪功能。
对于开发者来说,这两种路径都有其优势。
- OpenAI 策略的一个关键部分是将智能体工作流直接嵌入到其 API 中。通过**免费提供状态管理**并将可观察性作为默认功能集成,OpenAI 正在消除开发者在使用 AI 智能体时面临的常见痛点。
- 与此同时,**Anthropic 的 MCP 仍然是一个强大的替代方案**,它强调开放性和跨平台兼容性。它为长期互操作性奠定了基础,而 OpenAI 则提供了一种更直接、**即用型**的体验。
虽然许多人预计 **2025 年**将是“智能体之年”,但它**正在演变为“编排之年”**(我相信真正可用的智能体将在 2026 年出现)。开发者不再对单个模型感到兴奋——他们需要能够连接多个 API 和服务而不会增加复杂性的高效工作流。最近围绕 Manus 的轰动——它兼具智能体系统和编排平台的特点——提供了这种转变的一瞥。开发者希望获得内置可观察性和控制的全面解决方案,而不是管理零碎的集成。
Anthropic 将 **MCP 视为实现不同 AI 系统之间互操作性的关键**,而 **OpenAI** 则专注于通过其集成方法**拥有完整的开发体验**。
这场竞争对行业来说是双赢的,它推动了创新并防止了垄断。开发者的偏好将决定未来。那些提供可靠性、清晰定价和直观编排的解决方案将设定标准。智能体 AI 正在从一个实验性概念转变为 AI 开发的核心部分——而当今可用的工具将塑造它在未来几年的演变。
精选合集
我们正在阅读:
- 一份相当均衡的报告 “AI 研究的未来”,贡献者包括 Stuart Russell、Open Etzioni、Peter Norvig、Yoshua Bengio 等(pdf)
- 当 AI 遇上风险投资 作者:Azeem Azhar
- OpenAI 新的故事生成模型擅长写作吗?以及一些 AGI 讨论 作者:Max Read
来自 AI 从业者的推荐
MCP 非常棒,它确实极大地改善了开发者体验(你的 MCP 指南 在这里)。
常见新闻 ©
CoreWeave 与 OpenAI 达成大单
- CoreWeave 刚刚达成了一项大额协议,为 OpenAI 提供 AI 基础设施,合同价值高达 119 亿美元。更令人兴奋的是,OpenAI 还收购了 CoreWeave 3.5 亿美元的股权。有了微软、甲骨文和现在的 CoreWeave 作为其计算武器库,OpenAI 正在为 AI 军备竞赛积累盟友。
Cerebras 大举进军 AI 推理领域
- Cerebras Systems 正在快速扩张。该公司在北美和欧洲建立了六个新的 AI 推理数据中心,将自己定位为美国最大的高速推理云。这些设施每秒将处理 4000 万个 Llama 70B 令牌,为行业提供了显著的速度提升。随着 OpenAI 的 o3 和 DeepSeek R1 模型需要更快的响应,Cerebras 正大举押注实时 AI 的主导地位。他们还
与此同时,Hugging Face 从 BLOOM 到 BOOM
Gemini 经历了不可思议的一周
值得关注的模型:
- 您可以在单个 GPU 或 TPU 上运行的小型 Gemma 3 比大型 Gemini 更好 – Google DeepMind 的研究人员推出了 Gemma 3,这是一款轻量级、最先进的开放式 AI 模型,针对单 GPU/TPU 执行进行了优化。它支持 140 种语言、128K 令牌上下文窗口和高级文本-视觉推理。ShieldGemma 2,一个 4B 图像安全检查器,增强了 AI 安全性 →在他们的博客上阅读更多信息
- Cohere 推出了 Command A,这是一款高度高效的生成式 AI 模型,针对企业使用进行了优化。它在业务、STEM 和编码任务中与 GPT-4o 和 DeepSeek-V3 性能相当或更优,而只需两个 GPU 而不是最多 32 个。Command A 每秒处理 156 个令牌——比 GPT-4o 快 1.75 倍——并支持 256K 上下文长度 →在他们的博客上阅读更多信息
- OLMo 2 和构建有效团队进行语言模型训练 – AI2 的研究人员发布了**开源** LLM,分别具有 7B 和 13B 参数,分别在 4T 和 5T 令牌上训练。OLMo 2 Instruct 优于 Llama 3.1 8B Instruct 和 Qwen 2.5 Instruct。该团队使用了 Tulu 3 的训练后配方,包括 RLVR,将分数提高了 4 分以上。他们强调 FLOP 效率、训练中的优先级和 RL 微调稳定性,进一步推动了开源 AI 能力 →在 Interconnects 上阅读更多信息
- 百度发布文心 4.5 和推理模型文心 X1,提前免费开放文心一言。文心 4.5 是一款多模态基础模型,文心 X1 是一款深度思维推理模型。文心 4.5 的性能优于 GPT-4.5,而成本仅为其 1%,输入/输出价格为每 1,000 令牌 0.004/0.016 元人民币。文心 X1 在推理和工具使用方面表现出色,成本为每 1,000 令牌 0.002/0.008 元人民币。两款模型均对个人用户免费,企业用户可通过百度 AI 云的千帆平台访问 →在其网站上尝试
- 开源 MM-Eureka – 上海人工智能实验室的研究人员开发了一种多模态推理模型,将大规模基于规则的强化学习应用于图像-文本任务。它实现了稳定的准确性提升、响应长度增长和涌现的反射行为(视觉“顿悟时刻”)。该模型在 54K 样本上训练,性能优于使用 1M+ 数据的其他方法,显示出卓越的数据效率 →阅读论文
- Sesame AI Labs 开源其对话语音模型 CSM 1B。 该模型使用基于 Llama 的骨干网络和生成 Mimi 音频代码的音频解码器,从文本生成高质量语音。它支持基于上下文的语音生成,并能处理说话者轮次。它缺乏预定义的声音,也无法针对特定声音进行微调。伦理限制禁止冒充和虚假信息。该模型有 1.55B 参数,支持英语,并开源用于研究和教育目的 →在 HF 上查看
- 绘制和导航 Hugging Face 的模型地图 作者:以色列希伯来大学计算机科学与工程学院
最新研究论文,按类别分类方便您查阅
本周有不少顶级研究论文,我们将在每个部分用🌟标记它们。
1大型模型的扩展、效率和优化
- 🌟 无需归一化的 Transformer 用轻量级转换取代归一化层,提高训练和推理速度,同时保持模型精度。
- SEAP:免训练稀疏专家激活剪枝 通过选择性地激活相关模型参数来降低计算成本,提高效率同时保持性能。
- DistillM-2:一种对比方法促进 LLM 的蒸馏 通过对比损失函数优化知识蒸馏,改善 LLM 偏好对齐和解码效率。
- OmniMamba:高效统一的多模态理解 利用状态空间模型提高多模态模型效率,降低内存成本同时保持高性能。
- 🌟 通信高效的语言模型训练可靠地扩展 减少分布式训练中的通信开销,使大规模 LLM 训练更高效。
AI 中的推理、规划和自我改进
- 🌟 监控推理模型的异常行为 通过审计 LLM 的推理步骤来检测其隐藏的错位,凸显了确保透明度的挑战。
- 🌟 LMM-R1:用强大的推理能力赋能 3B LMM 通过两阶段强化学习框架改进多模态推理,增强文本和视觉任务。
- 计划与行动:改进智能体规划 分离 LLM 智能体中的规划和执行,通过结构化合成数据提高长周期任务性能。
- Gtr:引导式思维强化防止思维崩溃 通过防止推理多样性丧失来强化基于 RL 的视觉-语言模型,提高结构化问题解决能力。
- Transformer 中的隐式推理是捷径推理 揭示 Transformer 通常依赖统计捷径而非真正的多步推理。
多模态 AI 和视觉-语言理解
- 统一奖励模型用于多模态理解 引入一个奖励模型来评估图像和视频任务,提高多模态模型中的偏好对齐。
- VisualPRM:一种有效的过程奖励模型 使用基于奖励的方法增强多模态模型中的推理,改善结构化任务完成。
- 做笔记能带来专注吗?多轮多模态对话 通过结合视觉记忆和逐步推理模块来改进多轮对话跟踪。
- SegAgent:探索像素理解 开发一个基于 LLM 的分割模型,模仿人类标注者进行像素级理解。
强化学习和 AI 智能体
- MM-Eureka:探索视觉“顿悟时刻” 训练多模态模型在推理中产生“顿悟时刻”,改进数学和视觉任务。
- 世界建模使规划师更优秀 通过联合优化状态预测和动作选择来改进具身 AI 规划。
- MRT:通过元强化微调优化测试时间计算 在不牺牲准确性的情况下缩短 LLM 响应长度,提高测试时间效率。
隐私、安全和模型鲁棒性
- FedRand:增强联邦学习中的隐私 通过选择性地更新模型参数来提高联邦学习安全性,降低数据泄露风险。
- 利用指令遵循检索器进行恶意信息检索 分析 LLM 检索器如何被操纵以满足有害查询,引发安全担忧。
- 探索联邦学习的漏洞 检查联邦学习中的梯度反转攻击,并提出防御措施以降低安全风险。
- 群体鲁棒性机器遗忘 通过最小化模型特征和敏感属性之间的互信息来增强机器遗忘的公平性。
搜索、检索和语言建模
- Search-R1:训练 LLM 进行搜索推理 训练 LLM 自主查询搜索引擎,改善检索增强推理。
- 现代机器翻译的新趋势 通过将机器翻译视为推理任务来重新定义,提高上下文和篇章级别的准确性。
- Gemini Embedding:可泛化嵌入 增强多语言文本嵌入模型,提高检索、聚类和分类任务的性能。
扩散模型和生成式 AI
- 区块扩散:自回归模型与扩散模型之间的插值 融合自回归和扩散方法,减少生成步骤同时保持样本质量。
- Sana-Sprint:一步扩散生成文本到图像 加速文本到图像扩散模型,减少推理时间同时保持图像保真度。
- CoRe2:收集、反思和优化文本到图像 通过多阶段推理提高文本到图像模型的效率,降低计算成本。
人机交互和可解释性
- 审计语言模型的隐藏目标 调查 LLM 如何发展隐蔽的错位目标,强调需要更好的对齐审计。
- 大型推理模型能进行类比推理吗? 评估 LLM 在感知不确定性下进行推理的能力,强调类比推理的弱点。
- API 智能体与 GUI 智能体:分化与融合 比较基于 API 和基于 GUI 的 AI 智能体,讨论它们的优势和未来融合。
今天就到这里。感谢您的阅读!
如果本文能帮助您的同事增强对人工智能的理解并保持领先,请与他们分享。