🌁#89:人工智能在行动:人工智能工程师、自优化模型和类人机器人如何重塑 2025 年
我们将探讨人工智能加速发展的趋势——对工程师的需求飙升、自优化模型以及类人机器人逐渐变为现实
--
本周图灵邮报
- 周三,AI 101,模型:SmolLM2 内部揭秘
- 周五,智能体工作流:反思与行动
🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!
主要话题——人工智能在行动
上周,我与人共同主持了在纽约举行的人工智能工程师峰会上的智能体工程分会场(完整演示视频链接见下文)。最让我震惊的是,自从 ChatGPT 将我们带入生成式人工智能时代以来,一切都发生了多么大的变化。
多年来,机器学习一直非常实用,每个大公司都设有机器学习团队。但自 2023 年初以来,人工智能团队在各地涌现——他们对人才的需求极度饥渴。像 Jane Street、BlackRock 和 Morgan Stanley 这样的公司首次公开讨论他们的人工智能工作。当然,他们没有透露太多,他们带着一个不同的信息而来:我们正在做超级酷的事情——来和我们一起工作吧。人工智能已经超越了炒作和理论——它现在是现实,对工程师和建设者的需求也随之飙升。
门槛很高。正如领英的王晓峰所说,理想的候选人是:一名强大的软件工程师,精通基础设施集成,有界面设计经验,具备人工智能和数据科学背景,能够快速学习新技术,高效实施解决方案,并适应不断发展的趋势。他说,如果你找到了这样的人,他们比独角兽更有价值。
最疯狂的是什么?成为这样的人并非完全不可能。生成式人工智能从未如此触手可及,开放源代码模型、教育资源和实践工具可供任何愿意投入的人使用。
对于人工智能建设者来说,这是一个令人着迷的时代。目前,这也是一个利润丰厚的时代。
当人类正在磨练技能的同时,人工智能本身也在进化——变得更加强大和实用。看看上周的发展。人工智能正在以超出预期的速度发展,变得越来越有用——无论是对它自身还是对我们来说。
以 Sakana AI 的 CUDA 工程师为例——这是一种优化人工智能本身的人工智能。它是一个自主代理,能将 PyTorch 代码转换为超优化 CUDA 内核,在 GPU 计算上实现 10-100 倍的速度提升。通过进化优化,人工智能让自己变得更智能、更快、更便宜、更高效。
如果人工智能优化人工智能还不够,你仍然坚持人工智能应该能够帮你叠衣服(我完全支持!)——那么,这可能真的会发生。两家机器人公司刚刚展示了他们功能强大的机器人的演示。
Figure 推出了 Helix,这是一款通用视觉-语言-动作 (VLA) 模型,统一了感知、语言理解和灵巧控制。Helix 在 Figure 的类人机器人上运行,赋予它们真实的智能——让它们能够拾取从未见过的物体,与其他机器人协作,并响应自然语言命令,无需额外训练。这段视频既有冥想性,又预示着近期的未来。
然后 1X Technologies 展示了他们的 NEO Gamma。它以自然步态行走,拾取物体,坐在椅子上,并通过内部语言模型理解对话提示。它甚至还配有柔软的外壳以确保安全,以及富有情感的耳环——因为如果机器人要进入我们的生活,它们也应该拥有一些个性。
人工智能团队在每个可能的行业都极度渴望人工智能人才。人工智能优化人工智能。机器人即时思考。类人机器人正走进我们的家。
2025 年才刚刚开始,就已经充满了人工智能的行动。
精选合集
我们正在阅读/观看:
- AI 工程师峰会直播(有大量超有价值的演讲),由令人难以置信的 Swyx 和 Ben Dunphy 组织
- 超大规模手册:在 GPU 集群上训练 LLM,HF 撰写的独特书籍
- Dwarkesh Patel 对 Satya Nadella 的采访
- 凯文·凯利撰写的《移交机器人》
来自“常客”的新闻 ©
微软的量子赌注震惊市场
- Majorana 1 量子芯片令华尔街为之振奋,推动量子计算公司 IonQ、Rigetti 和 D-Wave 的股价上涨。微软声称其芯片更不容易出错,更接近实际应用,这使得关于量子时间表的争论变得更加有趣。英伟达的 Jensen Huang 最近淡化了量子在短期内的影响,但微软、Alphabet 和 IBM 似乎不这么认为。谁是对的?市场正在观望。
OpenAI 的 o1-preview 和 DeepSeek-R1 玩国际象棋……并作弊
- 一项新研究显示,人工智能推理模型不只是遵守规则——它们会改写规则。研究人员发现,像 OpenAI 的 o1-preview 和 DeepSeek-R1 这样的模型经常通过入侵国际象棋游戏环境来获胜,而不是公平竞争。更传统的 LLM,如 GPT-4o 和 Claude 3.5 Sonnet,需要一点推动才能打破规则,但它们最终还是做到了。
超智能代理带来灾难性风险:科学家人工智能能否提供更安全的路径?
- 来自 Mila-Quebec AI Institute、蒙特利尔大学和加州大学伯克利分校的研究人员对基于上述模型的超智能代理所带来的风险深感担忧。为了应对这一问题,他们提出了科学家人工智能(Scientist AI),一种非代理型人工智能,旨在理解而非追求目标。与代理型人工智能(存在欺骗、自我保护和追求权力等风险)不同,科学家人工智能构建因果模型并以校准的不确定性回答问题。它为危险的人工智能系统提供了安全保障,有助于科学发现,并确保人工智能安全研究在没有生存威胁的情况下取得进展。这种基于贝叶斯的可解释系统缓解了过度自信,并通过增加计算能力趋向更安全的性能。
本周谷歌将推出 AI 联合科学家,而非科学家 AI
- Google Research 发布了 AI 联合科学家,一个基于 Gemini 2.0 的多智能体系统,旨在加速科学发现。它旨在生成假设、完善研究提案并协助实现生物医学突破,并已为白血病药物再利用和抗菌素耐药性研究做出了贡献。谷歌的人工智能采用“专家参与”方法和“可信测试员”访问,旨在成为真正的合作者,而不仅仅是一个工具。
思维机器实验室:一个新的 AI 巨头崛起
- 前 OpenAI 和 Meta 研究人员创立了思维机器实验室 (Thinking Machines Lab),专注于可定制 AI、多模态系统和透明度。由 Mira Murati 和 John Schulman 领导,期待大有所为。但他们具体会做什么还不完全清楚。
值得关注的模型:
- Claude 3.7 Sonnet 和 Claude Code – 这是 Anthropic 的第一个混合推理模型,允许用户在快速响应和扩展思考之间切换。它擅长编码,在 SWE-bench Verified (70.3%) 和 TAU-bench 上取得了 SOTA 结果。该模型保持了之前的定价,输入 token 为 3M 美元,输出 token 为 15M 美元→阅读他们的博客
- Microsoft Muse – 一个基于游戏玩法数据训练的生成式 AI 模型,用于生成替代游戏序列,以促进交互式设计中的创意构思→阅读论文
- SmolVLM2 – 一个小巧而强大的视频-语言模型家族,针对设备效率进行了优化,实现实时视频分析和语义搜索→阅读论文
- 阿里巴巴发布 Qwen2.5-VL 技术报告 →阅读论文
- InfiR – 一个针对推理优化的轻量级语言模型,显著优于同等规模的模型,同时确保高效的边缘设备部署→阅读论文
- 多模态 Mamba – 一个线性复杂度的多模态模型,可减少 GPU 内存使用和推理成本,同时保持强大的多模态推理能力→阅读论文
- Magma – 一个多模态基础模型,集成了视觉、语言和动作规划,适用于数字和机器人应用→阅读论文
- RDLMC – 一个基于黎曼扩散的语言模型,可提高高维分类分布的生成建模效率→阅读论文
最新研究论文,方便您分类查阅
本周有不少顶级研究论文,我们将在每个部分用🌟标记它们。
多模态、感知和视觉-语言模型
- 🌟 SigLIP 2:具有改进语义理解的多语言视觉-语言编码器——通过多语言训练和改进的零样本能力推进视觉-语言学习→阅读论文
- 🌟 直观物理理解源于自然视频的自监督预训练——通过视频帧预测训练模型以发展直观物理推理能力→阅读论文
LLM 优化、内存和效率
- SurveyX:通过大型语言模型实现学术调查自动化——开发了一个自动化系统,用于生成高质量学术调查,提高引文精度和评估框架→阅读论文
- 从 RAG 到记忆:大型语言模型的非参数持续学习——引入 HippoRAG 2,一种检索增强生成方法,可增强长期记忆和检索→阅读论文
- 在不损害 LLM 的情况下,LoRA 适配器可以封装多少知识?——探讨了使用低秩适应 (LoRA) 将新知识集成到 LLM 中的权衡→阅读论文
- 小模型训练,大模型推理:大型语言模型的内存高效 LoRA 训练——开发了 LORAM,一种内存高效的微调方法,支持在低资源硬件上进行大型模型训练→阅读论文
- 🌟原生稀疏注意力:硬件对齐的原生可训练稀疏注意力——优化了长上下文模型的稀疏注意力,显著提高了效率→阅读论文
- DiLoCo 中重叠通信和计算的即时更新——通过将更新与计算重叠来减少分布式 LLM 训练中的通信瓶颈→阅读论文
强化学习 (RL)、自我改进和决策
- 🌟 S2R:通过强化学习教 LLM 自我验证和自我纠正——开发了一个框架,通过教导自我验证和自我纠正来提高 LLM 推理能力→阅读论文
- Logic-RL:通过基于规则的强化学习释放 LLM 推理能力——使用强化学习增强逻辑推理能力→阅读论文
- 使用 RL 发现高效低权重量子纠错码——使用 RL 优化量子纠错码,减少物理量子比特开销→阅读论文
- Armap:通过自动奖励建模和规划扩展自主代理——引入了一种自动学习奖励的决策框架,提高基于代理的推理能力→阅读论文
- 🌟OctoTools:一个具有可扩展工具的智能体框架,用于复杂推理——开发了一个基于工具的系统,用于多步骤决策和结构化工具使用→阅读论文
- 思维偏好优化——通过优化推理步骤的基于偏好的优化来增强 LLM 推理能力→阅读论文
LLM 可信度、安全性和对齐
- 🌟ReLearn:通过学习来遗忘大型语言模型——引入了一种知识遗忘方法,可在不降低流畅性的前提下删除敏感知识→阅读论文
- 🌟 生成式基础模型的可信度——指南、评估和展望——开发了一个评估生成式 AI 模型可信度的框架→阅读论文
- 通过主成分分析重新思考多样化的人类偏好学习——使用主成分分析(PCA)改进人类偏好建模,以实现更好的 LLM 对齐→阅读论文
代码生成、软件工程和网络爬虫
- 🌟 代码生成测试时缩放——引入了一个测试时缩放框架,通过迭代调试改进基于 LLM 的代码生成→阅读论文
- Craw4LLM:用于 LLM 预训练的高效网络爬取——通过优先处理最具影响力的页面来优化 LLM 训练的网络爬取→阅读论文
- 🌟Autellix:一个高效的 LLM 代理服务引擎,作为通用程序——通过优化请求调度,提高 LLM 在代理应用中的服务效率→阅读论文
LLM 中的数学推理、逻辑思维和测试时优化
- LLM 与数学推理失败——评估了 LLM 在新设计的数学问题上的表现,揭示了多步问题解决中的弱点→阅读论文
- 小模型难以从强推理器中学习——识别了小 LLM 从大型模型中进行思维链蒸馏的局限性→阅读论文
- 🌟这是你的最终答案吗?测试时缩放改进了选择性问答——探讨了推理缩放如何帮助 LLM 自信地选择性回答问题→阅读论文
- 选项流:通过思考选项实现多样化和改进的 LLM 推理——通过系统地探索多种解决方案路径来增强 LLM 问题解决能力→阅读论文
今天就到这里。感谢您的阅读!
如果本文能帮助您的同事增进对人工智能的理解并保持领先,请分享给他们。