🌁#90: 为什么AI的推理测试总让我们失望

社区文章 发布于2025年3月3日

我们讨论了基准测试问题,例如基准饱和,并探讨了潜在的解决方案。与往常一样,我们提供了一系列相关新闻和重要论文,以确保您掌握最新信息

--

本周图灵邮报

  • 星期三,AI 101,技术:关于知识蒸馏,你需要知道的一切
  • 星期五,智能体工作流:行动与工具

🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!


竞相构建更智能AI的竞赛导致了一个悖论:我们用来衡量进展的基准测试几乎与模型改进的速度一样快地失效了。就在几年前,BIG-Bench Hard (BBH) 数据集还是评估大型语言模型 (LLM) 推理能力的黄金标准。今天,它基本上已经过时了。最新的AI模型——GPT-4o、Gemini、DeepSeek——都已成功通过测试,将曾经严格的测试变成了例行公事。为此,研究人员引入了 BIG-Bench Extra Hard (BBEH),这是一个旨在将AI推理推向极限的新基准。但如果历史可以借鉴,BBEH也将比我们预期的更快地被“解决”。那接下来呢?

这种 基准饱和 的循环是AI评估中最大的障碍之一。每当研究人员设计出新的测试时,模型很快就会适应,通常是通过与真正推理无关的方法。AI实验室优化他们的模型以主导排行榜,微调响应以适应基准格式,而不是提高真正的认知能力。这是一个古德哈特定律的经典案例:当一个度量成为目标时,它就不再是一个好的度量。

除了饱和,还有一个更大的问题:我们衡量的东西错了。大多数推理基准测试都严重偏向数学和编码任务,因为它们有明确的正确和错误答案。但能够解决代数问题并不意味着AI可以处理现实世界的模糊性、进行因果推断或理解人类动机。一个能编写完美Python脚本的模型,可能仍然无法回答一个细致入微的伦理困境,或者理解对话中的讽刺。然而,由于数学和编程容易评分,它们继续主导着AI评估,给我们一种扭曲的进展感。

即使基准测试试图涵盖更广泛的推理技能,它们也面临着一个不同的问题:模型利用肤浅的捷径,而不是真正通过问题进行推理。AI擅长模式识别,通常识别数据集中的统计线索,而不是以类人的方式解决任务。例如,如果一个基准测试总是以相似的格式框定逻辑演绎问题,模型就可以记忆模式,而不是实际执行推理。这种能力错觉是LLM在面对不熟悉的现实世界挑战时仍然会出错的原因之一。

弱评估方法的影响超出了研究实验室。AI模型已经集成到关键应用程序中——医疗保健、法律分析、客户服务——这些地方推理技能至关重要。如果我们的基准测试不能准确反映现实世界的推理需求,我们就有可能部署看起来能力很强但在不可预测且代价高昂的方式下失败的模型。更糟的是,企业和政策制定者可能会根据误导性的基准分数高估AI的认知能力,从而导致对自动化决策的错误信任。

那么,我们如何建立更好的基准呢? 答案在于 多样性、适应性和现实世界测试。 AI评估不应依赖于快速过时的固定数据集,而应纳入动态和对抗性测试,让新的、未见的问题不断挑战模型。基准测试也必须超越数学和编码,涵盖常识推理、因果推断和伦理决策。最后,现实世界的表现需要成为最终的衡量标准——AI在协助医生、指导自主系统或处理复杂的社会互动方面的表现如何?

BBEH是朝着正确方向迈出的一步,但这只是漫长故事的最新篇章。挑战在于让基准不仅更难,而且更智能。如果AI要真正进行推理,我们需要重新思考如何测试它。否则,我们将继续把应试能力误认为是智能——这是一个危险的错觉。

精选合集

image/png

我们正在阅读/观看:

来自人工智能从业者的推荐

  • 想象一下拥有一把用于解剖LLM的精密手术刀——开源的LLM-Microscope揭示了token非线性、内存深度、层洞察和表示复杂性。

来自“常见嫌疑犯”© 的新闻

DeepSeek在#开源周期间的6项卓越成果

  • DeepSeek本周发布了六项重大的开源AI优化,展示了LLM开发的效率和可扩展性。FlashMLA(在GitHub上已获得超过11k星标!)优化了Hopper GPU的多头潜在注意力(MLA),实现了3000 GB/s的内存带宽和580 TFLOPS的计算。DeepEP引入了一个新的MoE通信库,以提高专家模型效率。DeepGEMM,一个FP8 GEMM库,达到了1350+ TFLOPS,性能优于专家调优的内核。优化的并行化策略增强了大规模AI训练中的工作负载分配,而Fire-Flyer文件系统(3FS)简化了高性能AI数据管理。在第六天,他们深入探讨了DeepSeek-V3/R1推理系统。值得一读!
  • DeepSeek在AI方面的进步也让蒸馏技术受到了媒体关注。看到它登上头条很有趣——看来连优化技巧也有了它们的15分钟荣耀。我们将在周三讨论KD!

Anthropic 升级:更智能的 AI,更大的交易,以及完全透明

  • Anthropic正在大展拳脚。借助Claude 3.7 Sonnet,用户现在可以控制它思考的深度——无论是解决复杂问题还是玩宝可梦。
  • 与此同时,随着AI监管收紧,新的透明度中心阐明了安全措施和治理政策。科学领域呢?Anthropic正在与美国能源部合作,测试AI在国家安全和研究中的作用。
  • 所有这些势头,再加上新一轮35亿美元的E轮融资,估值高达615亿美元。Dario和Daniela Amodei刚刚出现在《泰晤士报》上,预言“到明年,人工智能可能比所有人类都更聪明”。

谷歌的AI策略:更努力工作,更智能代码,以及AI联合科学家

  • 硅谷的AI军备竞赛正在突破极限——无论是人类还是机器。谢尔盖·布林希望谷歌Gemini AI团队每周工作60小时,称其为“生产力的最佳点”。
  • 为了吸引更多开发者,Google 将 AI 驱动的编码辅助工具 免费提供给所有人,Gemini Code Assist 每月可提供多达 180,000 次代码补全,比现有工具有了巨大飞跃。它现在可在 VS Code、JetBrains 和 GitHub 中使用,不仅可以编写代码,还可以审查拉取请求并适应自定义样式指南。
  • 在实验室里呢?谷歌的人工智能联合科学家,基于Gemini 2.0构建,正在生成和完善科学假设——通过发现新的候选药物和基因转移机制,已经在生物医学研究中取得了突破。也许它也能找出如何让人类像人工智能一样不知疲倦地工作。

又一项量子成就

  • 来自AWS量子计算中心的研究人员开发了一种硬件效率高的量子纠错(QEC)方案,使用了串联玻色子量子比特。他们的系统将玻色子猫量子比特与距离为5的重复码集成,降低了容错量子计算所需的开销。该方法被动地抑制比特翻转错误,同时外部重复码纠正相位翻转错误。

值得关注的模型:

  • NeoBERT:下一代BERT – 通过架构升级(RoPE、SwiGLU、RMSNorm)和扩展上下文长度,使双向编码器现代化,超越BERT-large和RoBERTa-large,同时提高推理速度
  • IBM Granite 3.2:推理、视觉、预测及更多 – 引入了增强推理、视觉语言和预测能力的开源模型,在多个领域超越了更大的专有模型
  • Kanana:计算高效的双语语言模型 – 优化了韩语-英语双语模型,降低了计算成本,同时在韩语基准测试中优于LLaMA 3.1 70B
  • SoS1:O1和R1类推理LLM是平方和求解器 – 证明了结构化推理可提高LLM在多项式非负性问题上的准确性,以最小的计算量优于更大的模型
  • 会话语音模型 (CSM) – 一种端到端的多模态方法,利用 Transformer 通过集成文本和音频表示、优化延迟并超越传统文本到语音方法来生成富有表现力、上下文感知的语音 → 阅读他们的博客

最新研究论文,方便您分类查阅

本周有不少顶级研究论文,我们将在每个部分用🌟标记它们。

  • 🌟 超越发布:生成式AI系统的访问注意事项 – 分析了开放访问AI模型面临的实际挑战,包括API定价、托管成本和可访问性障碍

LLM优化与训练稳定性

效率与优化

推理与多步问题解决

RAG与信息处理

AI代理与自动化科学实验

强化学习与策略优化

安全与AI对齐

压缩、推理与成本优化

今天就到这里。感谢您的阅读!


如果本文能帮助您的同事增强对人工智能的理解并保持领先,请与他们分享。

image/png

社区

📻 🎙️ 嘿,我为这篇博文生成了一个 AI 播客,快来听听看吧!

此播客通过 ngxson/kokoro-podcast-generator 生成,使用了 DeepSeek-R1Kokoro-TTS

注册登录 进行评论