FOD#93: 当AI意味着环境智能
以及过去未来中的其他故事,包括生活在办公桌中的助手,以及未来的按钮式操作——回顾塑造当今的数字梦想
本周图灵邮报
- 星期三,AI 101,技术:更多注意力:三种待发现类型——Slim attention,Kolmogorov attention 和 Xattention
- 星期五,智能体工作流:人机通信和人机协作 (HITL) 集成
想象的未来,记忆犹新
回顾我们曾经想象的未来,总是一种好奇的乐趣——筛选那些狂野的草图、宏伟的声明和雄心勃勃的原型,看看哪些留存了下来。我们曾认为知识机器会是什么样子?当人工智能主要存在于图表和科幻梦想中时,我们是如何描绘我们的学校、办公室和城市的?
这张图片启发了我周一的这篇文章。
那么,让我们追溯一个世纪以来数字世界的想象未来。事实证明,过去在预见我们正在建设的世界方面表现得相当出色。
从Vannevar Bush的Memex(在《我们可能会思考》一文中介绍)开始,那是一个1945年的愿景,一台机电一体的办公桌,可以从缩微胶片上调取文档,并以思想的速度链接概念。它笨重、机械、模拟——然而,它的精神在超文本、个人知识库,甚至我们现在使用人工智能总结和连接信息流的方式中得以延续。布什没有发明互联网;但他帮助构想了它。
在20世纪50年代,未来随着按钮的出现而到来。从1958年到1963年,Arthur Radebaugh的周日漫画《比我们想象的更近》预测了未来,给读者带来了纯粹的享受。在最早的几期中,他描绘了带有控制台书桌和教师广播的教室,学生通过按钮和摄像头进行回应。“按钮式未来学校”可能看起来有些过时,但其前提——个性化、机器辅助学习——正是当今教育技术和智能辅导系统的核心。他的方向出奇地准确!
然后是20世纪60年代,世博会让公众体验了互动计算。自动辅导器。指尖购物。远程学习和视频通话的控制台。HAL 9000在1968年的《2001:太空漫游》中首次亮相,体现了非实体AI——这一概念仍然影响着我们对助手技术的思考。在虚构的背后,有像J.C.R. Licklider这样的严肃思想家,在大多数家庭甚至还没有电视遥控器之前,就设想了“人机共生”(论文)。
看起来像是Midjourney创建的,但它是一张自动辅导器的照片
到1970年代,施乐PARC公司正在设计Dynabook——一款供孩子们学习、创作和探索的平板电脑原型。它从未上市,但它为iPad、笔记本电脑和数字教室指明了方向。这是Alan Key发表的一篇论文《为所有年龄段儿童设计的个人电脑》,他在其中构想了它的工作方式。
在20世纪80年代,苹果发布了其“知识导航者”视频——一款带有领结、能对话的AI平板电脑,帮助一位教授准备讲座。它具有语音识别、触摸输入和无缝视频通话功能。它看起来很奇特。现在,它看起来很有趣,而且太方正了。
在90年代初,AT&T标志性的“You Will”广告系列将企业未来主义与时尚的电影魅力融为一体。由汤姆·塞立克配音的广告提出了一个简单的问题:“你是否曾……?”——随后是令人毛骨悚然的预言性生活片段,由无形智能驱动。从1000英里外借一本书?无需问路就能横穿全国?无需停车即可支付通行费?在海滩上发送传真?你将会。没有机器人,没有安卓机器人——只有普通人使用无形、联网的智能。该广告准确预测了电子书、GPS、远程医疗、视频通话,甚至是智能手表——远在它们存在之前。
到了21世纪初,环境智能(Ambient Intelligence)进入了人们的视野。这是一个智能家居、数字城市和智能广告牌的时代。麻省理工学院的“氧气项目”(Project Oxygen)将AI描述为免费且始终可用的——就像氧气本身一样。巨大的转变是微妙的:智能从前端(办公桌、小工具、屏幕)转移到后端。它变得环境化了。它变得无形了。
在所有这些复古的设想中,令人震惊的是有多少核心思想得以延续。界面改变了。外形尺寸缩小了。但目标——增强记忆、简化知识工作、使环境响应——保持不变。
当然,有些想法仍然没有落地。完全自动化的无教师课堂?在教学上仍然棘手。能够响应我们所有需求的智能城市?仍在建设中,通常官僚作风多于智慧。还有那个无需询问就能预测你需求的迷人数字管家?嗯,这很复杂。对吧,苹果?
但这些旧的愿景很重要。不是因为它们正确地预测了每一个细节,而是因为它们敢于从人类层面想象数字辅助的意义。它们为设计师、工程师和研究人员提供了一个奋斗目标——一种可能性的词汇。
现在,当我们回首按钮式教室和打着领结的智能体时,我们不禁莞尔。带着一丝喜爱、一份钦佩——以及一种未来并非凭空而来的感觉。它是从我们曾经想象的未来中构成、重构和完善而来的。历史,你是取之不尽的灵感之源。
我个人希望看到更多的环境智能。人工智能,我们可能真的需要它。
欢迎来到星期一。让我们创造下一个未来吧。(并想象40年后的人们回顾我们时会露出怎样的笑容)。
精选合集
我们正在阅读/观看:
- 《非实体存在的合宜概念:可能心灵空间中的未知领域》 by Murray Shanahan
- 个性化推荐的基础模型 – Netflix博客
- 从《生命游戏细胞自动机》半个世纪的历史中,我们能从工程和创新中学到什么? by Stephen Wolfram
- 与OpenAI首席执行官Sam Altman关于构建消费科技公司的访谈 by Stratechery
- 管理前沿模型训练组织(或团队) by Nathan Lambert
来自惯犯们的新闻 ©
OpenAI 分享其声音(们)
- OpenAI 已经推出了用于语音到文本和文本到语音的下一代音频模型,现已在其API中可用。新模型为转录准确性设定了基准——尤其是在嘈杂、带口音或快速语音的场景中。另一方面,开发人员现在可以指示合成语音听起来富有同情心、专业或像睡前故事一样平静。语音助手变得更加……有特色。预计呼叫中心和叙述者将变得异常出色。
Claude 学会暂停
- Anthropic 为其 Claude 模型引入了一个看似简单的功能:“思考”工具。该工具旨在解决多步骤任务中的复杂推理,它使 Claude 能够在处理过程中,尤其是在处理工具、策略或高风险决策时,有条不紊地停下来反思。在 τ-Bench 等基准测试中,结果证明:在航空支持等棘手领域,性能提升高达54%。这是迈向更可靠AI智能体安静而有力的一步。
xAI 走得更深
- 埃隆的 xAI 正在升级 Grok,推出“DeeperSearch”,它是 DeepSearch 的一个更精致、更具耐心的兄弟版本,更注重可信度而非速度。同时首次亮相的还有基于文本的图像编辑功能——可以想象成带有提示的 Photoshop。下一步是什么?EvenMoreDeeperSearch(我想)。
李开复转向 DeepSeek
- 中国人工智能偶像李开复正在将 01.AI 从模型构建商转型为企业问题解决者,大力押注DeepSeek的开源势头。随着中国企业在1月份后对生成式人工智能的需求激增,李开复称这一战略转变“显而易见”。01.AI现在借DeepSeek之势,提供特定行业解决方案——从金融、法律和游戏开始。
Hugging Face 获得分析能力
- Hugging Face 刚刚对其分析仪表板进行了大幅升级。通过实时指标、自定义时间范围和详细的副本生命周期视图,开发者现在可以监控推理端点。这对于需要处理延迟、错误和规模的AI团队来说,是一次生活质量的提升。
英伟达的GPU外交
- NVIDIA及其风险投资部门NVentures正在持续——最近更积极地——连接AI的未来,每次投入一家算力密集型初创公司。在过去一个月里,它投资了Generalist AI,一家由前DeepMind研究员Pete Florence创立的隐形机器人公司,并以3.2亿美元收购了合成数据初创公司Gretel。Generalist正在构建通用机器人。Gretel生产合成数据——当真实世界数据不足时的必要“燃料”。两者结合表明NVIDIA正在叠加AI管道:从硬件到训练数据。称之为垂直整合,AI版。人形机器人。带有引用的搜索工具Perplexity。用于精密手术的Moon Surgical。还有许多许多其他公司。NVIDIA投资组合中的每家公司不仅使用GPU,它们还在极限地利用GPU,展示H100、DGX和Jetson为何为新AI前沿而生。它们不止步于硬件——它们接入了完整的NVIDIA基础设施:CUDA、Omniverse、TensorRT、NeMo、Isaac等等。当传统风险投资公司循环追逐潮流时,NVIDIA和NVentures专注于生成式AI、机器人和生物技术等领域的长期押注——这些领域算力是核心。这些初创公司是塑造下一波需求的超级用户。在Sid Siddeek的领导下,该团队仅在过去一年就投资了24+家AI初创公司——从Hugging Face和Mistral到AI21 Labs和Carbon Robotics。每一步都扩大了NVIDIA生态系统的影响力,通过算力、数据和资本引导AI的方向。这就是GPU外交——芯片驱动战略,资金构建影响力。如果AI是未来,NVentures正在将其连接起来,使其“绿黑”运转。顺便说一句,我用ChatGPT Deep Research探索了更多NVIDIA的投资策略。我没有时间验证其中任何内容,但仍然——这是一篇有趣的文章。(如果你还没有体验过Deep Research,那值得一试。)
至于 GTC 2025:英伟达正通过新的硬件创新(Blackwell GPU、Vera Rubin 架构)和先进软件(Dynamo)积极应对 ASIC 威胁,旨在通过强调灵活性、能源效率和基于推理的 AI 模型日益增长的计算需求来保持领先地位。如需深入分析,请查看 SemiAnalysis。
值得关注的模型:
- 微软的KBLaM将结构化知识与矩形注意力LLM结合,以实现低延迟、抗幻觉的答案 →阅读更多
- Fin-R1使用CoT和RL训练了一个金融专属LLM,在推理基准上超越了大型模型 →阅读更多
- NVIDIA的Cosmos-Reason1构建了一个物理推理LLM,用于建模具身智能体中的空间、时间和因果关系 →阅读更多
- NVIDIA的Cosmos-Transfer1使用多模态扩散和时空输入生成可控的模拟世界 →阅读更多
- M3 将 3D 高斯泼溅与基础模型融合,实现多模态记忆和渲染 →阅读更多
- Roblox的Cube将3D几何图形标记化,用于交互环境中的文本到形状和场景生成 →阅读更多
- 腾讯T1发布快速、低幻觉推理模型,以在中国LLM竞赛中竞争 →阅读更多
本周有不少顶级研究论文,我们将在每个部分用🌟标记。**
LLM 架构与效率提升
- EleutherAI 和清华大学的 Rwkv-7 “Goose” 通过动态状态演化和恒定内存训练改进了基于 RNN 的 LLM →阅读论文
- 上海人工智能实验室及其合作者的ϕ-Decoding在推理时通过模拟未来推理来平衡探索与利用 →阅读论文
- 字节跳动Seed的Frac-connections通过在MoE模型中分割隐藏状态而不是复制它们来减少冗余 →阅读论文
- 🌟 麻省理工学院、清华大学、上海交通大学和英伟达的 Xattention 通过块稀疏注意力和反斜对角线评分加速推理 →阅读论文
- 🌟 以色列理工学院和谷歌研究的 Inside-Out 揭示了内部 LLM 知识通常超越实际生成的内容 →阅读论文
推理、强化学习与微调技术
- 字节跳动和清华大学的Dapo利用开源工具,通过数学任务的强化学习对LLM进行微调 →阅读论文
- VNU 科技大学的小型 LLM 推理强化学习使用 GRPO 训练小型 LLM,以最少的计算量超越大型模型 →阅读论文
- 上海人工智能实验室的MetaLadder通过转移类比问题解决模式来改进数学推理 →阅读论文
- METR通过衡量AI达到类似人类任务成功所需的时间来跟踪AI完成长任务的能力 →阅读论文
多智能体与智能体系统
- 加州大学伯克利分校和意大利联合圣保罗银行的研究揭示了多智能体 LLM 系统为何会失败,识别了流行多智能体 LLM 框架的结构性缺陷 →阅读论文
- 腾讯利用 LLM 通过行为树生成和反馈为 3D 游戏创建智能体 →阅读论文
- 西安交通大学和新加坡国立大学的GKG-LLM构建了一个统一的知识图谱构建系统,涵盖各种领域 →阅读论文
隐私、合成数据和安全性
- 谷歌通过差分隐私LLM推理生成合成数据,在推理时使用现成LLM创建DP合成数据集 →阅读论文
扩散与生成技术
- Yandex Research 的扩散模型尺度蒸馏通过在生成过程中逐步缩放图像分辨率来蒸馏扩散模型 →阅读论文
调查与元分析
- 新加坡国立大学的多模态思维链推理,规划了跨视觉和文本模态的推理方法和挑战 →阅读论文
- IBM、耶鲁大学和希伯来大学对基于LLM的智能体评估进行了调查,检查了评估智能体能力和框架的基准和方法 →阅读论文
- 莱斯大学的《停止过度思考:高效推理调查》分析了减少LLM在推理任务中过度思考的方法 →阅读论文
- 中国科学院的《多模态LLM与人类偏好对齐》综述了跨模态对齐技术,并识别了关键挑战 →阅读论文
今天的内容到此为止。感谢您的阅读!如果这份新闻简报能帮助您的同事增进对AI的理解并保持领先,请务必分享给他们