🌁#92: 开发者之战与编排之年

社区文章 发布于 2025年3月18日

我们讨论了 OpenAI 和 Anthropic 在智能体 AI 方面的不同策略,重点介绍了新模型、相关论文和新闻

本周图灵邮报

  • 星期三,AI 101,模型:QWEN 系列(与 DeepSeek 等相关)
  • 星期五,访谈:Sharon Zhou,拥有百万以上学生和 Lamini 创始人的教育家

🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!


主要内容 – OpenAI 和 Anthropic:智能体 AI 的两条道路

OpenAI 和 Anthropic 在争取开发者的努力中采取了截然不同的路径。到目前为止,**Claude 3.7 被广泛认为是最佳的编码工具**,并且随着 **MCP (模型上下文协议) 越来越受欢迎**,Anthropic 似乎已经取得了早期优势。

但 OpenAI 最新发布的 **OpenAI 智能体平台** 暗示了一种不同的方法,这可能会改变局面。**Anthropic 专注于通过 MCP 实现标准化**,而 **OpenAI** 正在构建一个旨在实现可访问性和速度的**端到端生态系统**。

对比很明显。**Anthropic 的 MCP 采取了结构化、开放的方法**,为将 AI 模型连接到外部工具创建了一个通用标准。它在设计时考虑了灵活性和互操作性。同时,**OpenAI 专注于无缝集成**,通过 **智能体 SDK、响应 API、内置搜索和状态管理** 为开发者提供了一个完整的工具包——一种更直接、更实用的方法。

开发者喜欢开放标准,但也看重便利性。**OpenAI 紧密集成的工具降低了智能体构建的复杂性**,将**状态管理、工具集成和可观察性**等关键组件捆绑到一个单一平台中。最初作为实验性功能集开始的东西已经演变为一个更结构化的 **智能体 SDK**,并内置了安全保障和跟踪功能。

对于开发者来说,这两种路径都有其优势。

  • OpenAI 策略的一个关键部分是将智能体工作流直接嵌入到其 API 中。通过**免费提供状态管理**并将可观察性作为默认功能集成,OpenAI 正在消除开发者在使用 AI 智能体时面临的常见痛点。
  • 与此同时,**Anthropic 的 MCP 仍然是一个强大的替代方案**,它强调开放性和跨平台兼容性。它为长期互操作性奠定了基础,而 OpenAI 则提供了一种更直接、**即用型**的体验。

虽然许多人预计 **2025 年**将是“智能体之年”,但它**正在演变为“编排之年”**(我相信真正可用的智能体将在 2026 年出现)。开发者不再对单个模型感到兴奋——他们需要能够连接多个 API 和服务而不会增加复杂性的高效工作流。最近围绕 Manus 的轰动——它兼具智能体系统和编排平台的特点——提供了这种转变的一瞥。开发者希望获得内置可观察性和控制的全面解决方案,而不是管理零碎的集成。

Anthropic 将 **MCP 视为实现不同 AI 系统之间互操作性的关键**,而 **OpenAI** 则专注于通过其集成方法**拥有完整的开发体验**。

这场竞争对行业来说是双赢的,它推动了创新并防止了垄断。开发者的偏好将决定未来。那些提供可靠性、清晰定价和直观编排的解决方案将设定标准。智能体 AI 正在从一个实验性概念转变为 AI 开发的核心部分——而当今可用的工具将塑造它在未来几年的演变。

精选合集

image/png

我们正在阅读:

来自 AI 从业者的推荐

MCP 非常棒,它确实极大地改善了开发者体验(你的 MCP 指南 在这里)。

常见新闻 ©

CoreWeave 与 OpenAI 达成大单

  • CoreWeave 刚刚达成了一项大额协议,为 OpenAI 提供 AI 基础设施,合同价值高达 119 亿美元。更令人兴奋的是,OpenAI 还收购了 CoreWeave 3.5 亿美元的股权。有了微软、甲骨文和现在的 CoreWeave 作为其计算武器库,OpenAI 正在为 AI 军备竞赛积累盟友。

Cerebras 大举进军 AI 推理领域

  • Cerebras Systems 正在快速扩张。该公司在北美和欧洲建立了六个新的 AI 推理数据中心,将自己定位为美国最大的高速推理云。这些设施每秒将处理 4000 万个 Llama 70B 令牌,为行业提供了显著的速度提升。随着 OpenAI 的 o3 和 DeepSeek R1 模型需要更快的响应,Cerebras 正大举押注实时 AI 的主导地位。他们还

image/png

与此同时,Hugging Face 从 BLOOM 到 BOOM

image/png

Gemini 经历了不可思议的一周

image/png

值得关注的模型:

  • 您可以在单个 GPU 或 TPU 上运行的小型 Gemma 3 比大型 Gemini 更好 – Google DeepMind 的研究人员推出了 Gemma 3,这是一款轻量级、最先进的开放式 AI 模型,针对单 GPU/TPU 执行进行了优化。它支持 140 种语言、128K 令牌上下文窗口和高级文本-视觉推理。ShieldGemma 2,一个 4B 图像安全检查器,增强了 AI 安全性 →在他们的博客上阅读更多信息
  • Cohere 推出了 Command A,这是一款高度高效的生成式 AI 模型,针对企业使用进行了优化。它在业务、STEM 和编码任务中与 GPT-4o 和 DeepSeek-V3 性能相当或更优,而只需两个 GPU 而不是最多 32 个。Command A 每秒处理 156 个令牌——比 GPT-4o 快 1.75 倍——并支持 256K 上下文长度 →在他们的博客上阅读更多信息
  • OLMo 2 和构建有效团队进行语言模型训练 – AI2 的研究人员发布了**开源** LLM,分别具有 7B 和 13B 参数,分别在 4T 和 5T 令牌上训练。OLMo 2 Instruct 优于 Llama 3.1 8B Instruct 和 Qwen 2.5 Instruct。该团队使用了 Tulu 3 的训练后配方,包括 RLVR,将分数提高了 4 分以上。他们强调 FLOP 效率、训练中的优先级和 RL 微调稳定性,进一步推动了开源 AI 能力 →在 Interconnects 上阅读更多信息
  • 百度发布文心 4.5 和推理模型文心 X1,提前免费开放文心一言。文心 4.5 是一款多模态基础模型,文心 X1 是一款深度思维推理模型。文心 4.5 的性能优于 GPT-4.5,而成本仅为其 1%,输入/输出价格为每 1,000 令牌 0.004/0.016 元人民币。文心 X1 在推理和工具使用方面表现出色,成本为每 1,000 令牌 0.002/0.008 元人民币。两款模型均对个人用户免费,企业用户可通过百度 AI 云的千帆平台访问 →在其网站上尝试
  • 开源 MM-Eureka – 上海人工智能实验室的研究人员开发了一种多模态推理模型,将大规模基于规则的强化学习应用于图像-文本任务。它实现了稳定的准确性提升、响应长度增长和涌现的反射行为(视觉“顿悟时刻”)。该模型在 54K 样本上训练,性能优于使用 1M+ 数据的其他方法,显示出卓越的数据效率 →阅读论文
  • Sesame AI Labs 开源其对话语音模型 CSM 1B。 该模型使用基于 Llama 的骨干网络和生成 Mimi 音频代码的音频解码器,从文本生成高质量语音。它支持基于上下文的语音生成,并能处理说话者轮次。它缺乏预定义的声音,也无法针对特定声音进行微调。伦理限制禁止冒充和虚假信息。该模型有 1.55B 参数,支持英语,并开源用于研究和教育目的 →在 HF 上查看
  • 绘制和导航 Hugging Face 的模型地图 作者:以色列希伯来大学计算机科学与工程学院

image/png

最新研究论文,按类别分类方便您查阅

本周有不少顶级研究论文,我们将在每个部分用🌟标记它们。

1大型模型的扩展、效率和优化

AI 中的推理、规划和自我改进

多模态 AI 和视觉-语言理解

强化学习和 AI 智能体

隐私、安全和模型鲁棒性

搜索、检索和语言建模

扩散模型和生成式 AI

人机交互和可解释性

今天就到这里。感谢您的阅读!


如果本文能帮助您的同事增强对人工智能的理解并保持领先,请与他们分享。

image/png

社区

注册登录 发表评论