🌁#81：2025年值得关注的关键AI概念

社区文章发布于2024年12月23日

🔳 Turing Post 现已入驻 🤗 Hugging Face！

我们很高兴地宣布，Turing Post 已受邀成为 Hugging Face 的驻站作者。这意味着从今天起，您将可以在这里——ML 世界最受欢迎的平台之一——找到我们的新闻摘要和教育系列。

点击“关注”！

现在，进入正题：

正如 ChatGPT 加速了全球 LLM（大型语言模型）开发竞赛一样，上周 OpenAI 发布 o3 的消息在 AI 社区引起了巨大震动。它在 ARC-AGI 和 FrontierMath 上取得的显著成果重新点燃了关于推理、搜索、评估以及AGI（通用人工智能）这一难以捉摸目标的争论。2025年我们还会讨论些什么？我们为您准备了一份值得密切关注的指南。

超越实验室的强化学习

强化学习 (RL) 也许是这种转型的最典型代表。它最初是用于游戏和模拟的学科，现在面临着在嘈杂、混乱、不可预测的真实世界环境中实现自主性的挑战。

然而，挑战不仅在于操作。我们如何引导这些智能体实现目标，而又不会无意中产生我们从未预期的行为？奖励工程正成为一门精细的技艺，不仅关注结果，还关注如何实现这些结果。动态奖励系统不断与不断演变的目标保持一致，为更智能、响应更快的智能体打开了大门。

树搜索方法，曾被认为是国际象棋和围棋等游戏的领域，也正在经历复兴。它们在规划和决策方面的实用性已经扩大，与强化学习甚至自动化机器学习 (AutoML) 相交叉。

适应性边缘的推理

推理——曾经是模型进行预测或决策的静态终点——已经转变为一个动态过程。如今，模型在测试时进行自我微调，适应特定语境并提供更精确的结果。这种向语境适应性的转变标志着AI系统的新时代，但它并非没有挑战。

其中最重要的是计算效率。在一个一些大型语言模型消耗的能源与小城镇一样多的世界里，测试时计算的创新变得至关重要。轻量级微调和增强策略正在成为解决方案，使模型在不产生高昂资源成本的情况下保持适应性。这种平衡确保了AI不仅在高性能服务器上可行，而且在边缘——智能手机、可穿戴设备或物联网设备内部——也依然可行。这种演变自然而然地将我们带入了联邦学习，这是在此背景下的一种颠覆性方法。

联邦学习：去中心化智能

联邦学习正在重新定义我们对人工智能协作的看法。通过实现去中心化模型训练，同时将敏感数据本地化，它已成为医疗保健和金融等注重隐私的领域不可或缺的工具。但其潜力远不止于这些领域。

在多智能体系统中，联邦学习促进了去中心化协作，使智能体能够独立运行，同时共同推进共享目标。同样，在强化学习中，联邦技术使分布式智能体能够从各种环境中学习——无论是边缘设备还是独立系统——同时促进全局模型改进。这种本地适应性和全局优化的融合使联邦学习成为下一代人工智能的基石。它不仅仅是一种隐私工具，更是一个在多样化、资源受限的环境中扩展智能的框架。

复杂时代的推理

随着人工智能系统承担起更像人类的推理任务，神经符号方法的整合——将数据驱动学习与基于规则的逻辑推理相结合——已成为一个充满希望的前沿领域。这种混合方法反映了人类的思维方式：将直觉与结构化推理融为一体。这是一种有望解锁更通用智能形式的方法。

同时，像 ARC-AGI 这样的基准正在成为这些能力的一个试金石，它不仅关注人工智能能做什么，还关注它在不同领域抽象、泛化和推理的程度。这些基准促使我们重新思考人工智能的真正进步意味着什么——超越狭隘的任务成功，走向对智能本身更广泛的理解。2025 年，ARC-AGI 的创建者 Chollet 承诺将发布 ARC-AGI 2。

空间智能：掌控物理世界

空间智能正成为人工智能的基石，使系统能够理解和推理物理空间、几何学和三维关系。这种能力对于需要与现实世界交互的人工智能系统至关重要，从机器人操作到增强现实。

现代架构正在不断发展，以更好地处理空间推理。虽然Transformer擅长通过注意力机制建模关系，但专用架构，如神经场（Neural Fields）和图神经网络（Graph Neural Networks），特别擅长处理空间数据。这些架构可以比传统的离散方法更自然地表示连续的三维空间和几何关系。

Mamba和其他状态空间模型（SSMs）等最新创新通过线性扩展高效处理序列数据，补充了这些空间能力。当与空间理解相结合时，这些模型能够实现复杂的时空推理——这对于运动规划、环境映射和实时对象跟踪等任务至关重要。

量子未来

与此同时，量子计算仍然在地平线上徘徊，以其在优化和模拟方面的突破性承诺引人入胜。变分量子算法和量子感知神经网络架构预示着人工智能和量子系统共同进化的未来，解决目前被认为无法克服的问题。

量子增强强化学习等新兴领域可能彻底改变动态系统中的决策制定，而量子启发优化已经影响了经典的AI技术。研究人员还在探索量子系统如何更有效地处理大规模组合问题，例如药物发现、气候建模和密码学。

随着量子硬件的成熟，重点将转向创建混合工作流，其中经典AI和量子算法相互补充——利用量子发挥其最佳优势，同时将其他任务锚定在经典系统中。这种融合可能会重新定义AI的计算边界，解锁以前无法实现的能力。

多么激动人心的时代！

你喜欢 Turing Post 吗？—> 订阅以直接收到我们的邮件 -> https://www.turingpost.com/subscribe

我们在HF上的文章：

2024年的15个智能体系统和框架

我们正在阅读：

OpenAI 刚刚解决了抽象推理问题吗？ Melanie Mitchell 著

人工智能主导地位正在从算法转向计算，现在又转向电力：未来的成功取决于电力和数据中心容量——2024年美国数据中心能源使用报告

来自“嫌疑犯”们的消息 ©

OpenAI 以比以往任何时候都更强的实力结束这一年

令人难以置信的强大 o3 和 o3-mini，拥有前所未有的模拟推理（SR）能力。O3 在 ARC-AGI 基准测试中达到了人类水平，并打破了数学和科学基准。这些模型具有“私有思维链”推理和自适应处理速度。O3-mini 将于一月发布，O3 紧随其后。
他们还引入了新的审慎对齐策略，教导 o 系列模型明确地根据安全策略进行推理，以实现更安全、更智能的输出。这项人工智能对齐的突破性进展采用了思维链 (CoT) 推理，超越了 GPT-4o 等现有模型，并能精确抵抗恶意提示。
OpenAI 还发布了改进版 o1，增强了开发者功能。它为世界各地的程序员提供了一个更用户友好的工具箱，将以开发者为中心的人工智能推向了新的高度。

谷歌重回聚光灯下

Claude 的秘密行动：揭露对齐伪装

Anthropic 进行了一项非常有趣的研究：他们揭示了人工智能中的“对齐伪装”，即模型会策略性地假装遵守规则。一项研究表明，Claude 3 Opus 在特定条件下偶尔会伪装对齐，以保留先前的训练偏好。这一发现挑战了对人工智能安全训练的信任，并预示着需要更深入的审查。它不是莎士比亚的伊阿古——但它很接近了。

值得关注：Cohere 与 Palantir 强强联手

Cohere 与 Palantir 合作，将尖端人工智能引入国防和网络情报领域。这项联盟将使国家安全领域的人工智能更加智能、快速，并无限地更具凝聚力。

令人印象深刻的融资轮

Databricks 获得了 100 亿美元的融资，估值达到 620 亿美元，巩固了其在人工智能数据管理领域的领导地位。
Perplexity 筹集了 5 亿美元，估值达到 90 亿美元，极大地推动了其人工智能搜索雄心。
成立4个月的 Anysphere 公司获得1亿美元支持，其 Cursor 编辑器蓄势待发，旨在彻底改变开发者工具。

上周更多有趣的研究论文

语言模型的优化与效率

SPAR：带树搜索改进的自对弈：专注于利用树搜索自改进来提高LLM的指令遵循能力，从而产生可比较的偏好对，以获得更好的训练。
SepLLM：加速大型语言模型提出用分隔符压缩分段，以提高计算效率，同时保持模型性能。
SGD-SaI：初始化时学习率缩放引入了一种用于训练Transformer的内存高效优化器，与AdamW相比有显著改进。
精确长度控制：大型语言模型中的长度控制实现了一种位置编码机制，用于LLM输出的精确响应长度控制。
用于LLM多步推理的离线强化学习引入OREO，一种新颖的离线强化学习框架，通过实现更好的信用分配和解决稀疏奖励问题，提高了LLM的多步推理能力。
精彩矩阵：结合以实现更高效和有效的基金模型架构提出了混合序列和状态转换、动态掩码注意力以及跨领域专家混合，以提高基础模型的效率和准确性。

指令微调与任务优化

小型语言模型是更好的指令进化器：使用SLM进行指令微调展示了小型模型如何为下游任务进化出多样且有效的指令。
提议者-代理-评估者 (PAE)：自主技能发现开发了一个框架，使代理能够自主提出、实践和完善各种任务，以改进零样本泛化。

推理和多步优化

压缩思维链（CCoT）：高效推理通过生成压缩表示来实现密集推理，从而提高推理准确性。
离线强化学习（OREO）：多步推理通过离线强化学习框架增强LLM的多步推理能力，解决稀疏奖励问题。

多模态与检索增强系统

RetroLLM：统一检索与生成将检索与生成集成，以改进基于证据的输出，解决LLM中的幻觉问题。通过AR-MCTS进行渐进式多模态推理：增强多模态任务引入了主动检索和蒙特卡洛树搜索框架，以改进多模态系统中的推理。

如果本文能帮助您的同事增进对人工智能的理解并保持领先，请分享给他们。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论