🌁#90: 为什么AI的推理测试总让我们失望
我们讨论了基准测试问题,例如基准饱和,并探讨了潜在的解决方案。与往常一样,我们提供了一系列相关新闻和重要论文,以确保您掌握最新信息
--
本周图灵邮报
- 星期三,AI 101,技术:关于知识蒸馏,你需要知道的一切
- 星期五,智能体工作流:行动与工具
🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!
竞相构建更智能AI的竞赛导致了一个悖论:我们用来衡量进展的基准测试几乎与模型改进的速度一样快地失效了。就在几年前,BIG-Bench Hard (BBH) 数据集还是评估大型语言模型 (LLM) 推理能力的黄金标准。今天,它基本上已经过时了。最新的AI模型——GPT-4o、Gemini、DeepSeek——都已成功通过测试,将曾经严格的测试变成了例行公事。为此,研究人员引入了 BIG-Bench Extra Hard (BBEH),这是一个旨在将AI推理推向极限的新基准。但如果历史可以借鉴,BBEH也将比我们预期的更快地被“解决”。那接下来呢?
这种 基准饱和 的循环是AI评估中最大的障碍之一。每当研究人员设计出新的测试时,模型很快就会适应,通常是通过与真正推理无关的方法。AI实验室优化他们的模型以主导排行榜,微调响应以适应基准格式,而不是提高真正的认知能力。这是一个古德哈特定律的经典案例:当一个度量成为目标时,它就不再是一个好的度量。
除了饱和,还有一个更大的问题:我们衡量的东西错了。大多数推理基准测试都严重偏向数学和编码任务,因为它们有明确的正确和错误答案。但能够解决代数问题并不意味着AI可以处理现实世界的模糊性、进行因果推断或理解人类动机。一个能编写完美Python脚本的模型,可能仍然无法回答一个细致入微的伦理困境,或者理解对话中的讽刺。然而,由于数学和编程容易评分,它们继续主导着AI评估,给我们一种扭曲的进展感。
即使基准测试试图涵盖更广泛的推理技能,它们也面临着一个不同的问题:模型利用肤浅的捷径,而不是真正通过问题进行推理。AI擅长模式识别,通常识别数据集中的统计线索,而不是以类人的方式解决任务。例如,如果一个基准测试总是以相似的格式框定逻辑演绎问题,模型就可以记忆模式,而不是实际执行推理。这种能力错觉是LLM在面对不熟悉的现实世界挑战时仍然会出错的原因之一。
弱评估方法的影响超出了研究实验室。AI模型已经集成到关键应用程序中——医疗保健、法律分析、客户服务——这些地方推理技能至关重要。如果我们的基准测试不能准确反映现实世界的推理需求,我们就有可能部署看起来能力很强但在不可预测且代价高昂的方式下失败的模型。更糟的是,企业和政策制定者可能会根据误导性的基准分数高估AI的认知能力,从而导致对自动化决策的错误信任。
那么,我们如何建立更好的基准呢? 答案在于 多样性、适应性和现实世界测试。 AI评估不应依赖于快速过时的固定数据集,而应纳入动态和对抗性测试,让新的、未见的问题不断挑战模型。基准测试也必须超越数学和编码,涵盖常识推理、因果推断和伦理决策。最后,现实世界的表现需要成为最终的衡量标准——AI在协助医生、指导自主系统或处理复杂的社会互动方面的表现如何?
BBEH是朝着正确方向迈出的一步,但这只是漫长故事的最新篇章。挑战在于让基准不仅更难,而且更智能。如果AI要真正进行推理,我们需要重新思考如何测试它。否则,我们将继续把应试能力误认为是智能——这是一个危险的错觉。
精选合集
我们正在阅读/观看:
- Nathan Lambert 的一篇非常有见地的文章——“角色训练:理解和塑造语言模型的个性。” 在我们的系列文章中,我们最初将此称为用户画像。回想起来,那不是最好的术语!虽然角色训练无法完全捕捉用户画像的复杂性,但它目前是一个更常用的短语。
来自人工智能从业者的推荐
- 想象一下拥有一把用于解剖LLM的精密手术刀——开源的LLM-Microscope揭示了token非线性、内存深度、层洞察和表示复杂性。
来自“常见嫌疑犯”© 的新闻
DeepSeek在#开源周期间的6项卓越成果
- DeepSeek本周发布了六项重大的开源AI优化,展示了LLM开发的效率和可扩展性。FlashMLA(在GitHub上已获得超过11k星标!)优化了Hopper GPU的多头潜在注意力(MLA),实现了3000 GB/s的内存带宽和580 TFLOPS的计算。DeepEP引入了一个新的MoE通信库,以提高专家模型效率。DeepGEMM,一个FP8 GEMM库,达到了1350+ TFLOPS,性能优于专家调优的内核。优化的并行化策略增强了大规模AI训练中的工作负载分配,而Fire-Flyer文件系统(3FS)简化了高性能AI数据管理。在第六天,他们深入探讨了DeepSeek-V3/R1推理系统。值得一读!
- DeepSeek在AI方面的进步也让蒸馏技术受到了媒体关注。看到它登上头条很有趣——看来连优化技巧也有了它们的15分钟荣耀。我们将在周三讨论KD!
Anthropic 升级:更智能的 AI,更大的交易,以及完全透明
- Anthropic正在大展拳脚。借助Claude 3.7 Sonnet,用户现在可以控制它思考的深度——无论是解决复杂问题还是玩宝可梦。
- 与此同时,随着AI监管收紧,新的透明度中心阐明了安全措施和治理政策。科学领域呢?Anthropic正在与美国能源部合作,测试AI在国家安全和研究中的作用。
- 所有这些势头,再加上新一轮35亿美元的E轮融资,估值高达615亿美元。Dario和Daniela Amodei刚刚出现在《泰晤士报》上,预言“到明年,人工智能可能比所有人类都更聪明”。
谷歌的AI策略:更努力工作,更智能代码,以及AI联合科学家
- 硅谷的AI军备竞赛正在突破极限——无论是人类还是机器。谢尔盖·布林希望谷歌Gemini AI团队每周工作60小时,称其为“生产力的最佳点”。
- 为了吸引更多开发者,Google 将 AI 驱动的编码辅助工具 免费提供给所有人,Gemini Code Assist 每月可提供多达 180,000 次代码补全,比现有工具有了巨大飞跃。它现在可在 VS Code、JetBrains 和 GitHub 中使用,不仅可以编写代码,还可以审查拉取请求并适应自定义样式指南。
- 在实验室里呢?谷歌的人工智能联合科学家,基于Gemini 2.0构建,正在生成和完善科学假设——通过发现新的候选药物和基因转移机制,已经在生物医学研究中取得了突破。也许它也能找出如何让人类像人工智能一样不知疲倦地工作。
又一项量子成就
- 来自AWS量子计算中心的研究人员开发了一种硬件效率高的量子纠错(QEC)方案,使用了串联玻色子量子比特。他们的系统将玻色子猫量子比特与距离为5的重复码集成,降低了容错量子计算所需的开销。该方法被动地抑制比特翻转错误,同时外部重复码纠正相位翻转错误。
值得关注的模型:
- NeoBERT:下一代BERT – 通过架构升级(RoPE、SwiGLU、RMSNorm)和扩展上下文长度,使双向编码器现代化,超越BERT-large和RoBERTa-large,同时提高推理速度
- IBM Granite 3.2:推理、视觉、预测及更多 – 引入了增强推理、视觉语言和预测能力的开源模型,在多个领域超越了更大的专有模型
- Kanana:计算高效的双语语言模型 – 优化了韩语-英语双语模型,降低了计算成本,同时在韩语基准测试中优于LLaMA 3.1 70B
- SoS1:O1和R1类推理LLM是平方和求解器 – 证明了结构化推理可提高LLM在多项式非负性问题上的准确性,以最小的计算量优于更大的模型
- 会话语音模型 (CSM) – 一种端到端的多模态方法,利用 Transformer 通过集成文本和音频表示、优化延迟并超越传统文本到语音方法来生成富有表现力、上下文感知的语音 → 阅读他们的博客
最新研究论文,方便您分类查阅
本周有不少顶级研究论文,我们将在每个部分用🌟标记它们。
- 🌟 超越发布:生成式AI系统的访问注意事项 – 分析了开放访问AI模型面临的实际挑战,包括API定价、托管成本和可访问性障碍
LLM优化与训练稳定性
- 🌟 SWE-RL:通过开放软件演化上的强化学习推进LLM推理 – 引入SWE-RL,一个强化学习框架,用于改进LLM在软件工程任务中的推理能力,超越了监督微调方法
- 尺度-分布解耦:实现大型语言模型稳定有效训练 – 开发一种技术,通过将权重矩阵尺度与分布分离来稳定LLM训练,提高梯度稳定性和收敛速度
- 让LoRA再次伟大:通过自适应奇异值和专家混合优化对齐来增强LoRA – 使用带有自适应SVD先验的优化专家混合框架增强LoRA效率,优于传统的微调方法
- 大型语言模型彩票假说,重新思考LLM压缩应保留哪些能力? – 建议LLM压缩应侧重于保留推理和检索能力,而非仅仅令牌效率
- 🌟 LongRoPE2:近乎无损的LLM上下文窗口扩展 – 提出一种先进的RoPE重缩放方法,可将LLM上下文窗口扩展至128K个token,同时保持短上下文性能
效率与优化
- 长上下文大型语言模型如是说 – 探讨长上下文LLM的最新进展,详细介绍了KV缓存优化、内存管理和推理效率的改进
- 🌟 草稿链:少写多想,更快思考 – 引入了一种简洁的推理方法,在不牺牲准确性的前提下减少token使用和延迟
推理与多步问题解决
- 大型语言模型能否检测长链式思维推理中的错误? – 引入DeltaBench数据集,揭示了LLM在多步推理过程中检测错误方面的困难
- 数学推理的自奖励修正 – 开发了一种基于强化学习的修正框架,提高LLM解决数学问题的准确性
- 🌟 定理解释智能体:迈向LLM定理理解的多模态解释 – 引入了一个生成STEM主题动画多模态推理内容的智能体
- 语言模型能伪造吗?用反例创建评估算法推理 – 评估了LLM生成反例的能力,揭示了自我修正和验证方面的弱点
RAG与信息处理
- Rank1:信息检索中重排的测试时计算 – 引入了一种重排方法,通过利用测试时计算来增强检索相关性
- TeleRAG:通过预取检索实现高效检索增强生成推理 – 通过在LLM生成过程中预取相关数据,优化检索效率,从而减少RAG推理延迟
- 🌟 LettuceDetect:RAG应用的幻觉检测框架 – 开发了一种轻量级幻觉检测系统,其性能优于大型模型,同时保持高处理速度
AI代理与自动化科学实验
- 居里:走向使用AI代理进行严谨自动化科学实验 – 引入了一个AI代理,通过自动化假设检验和结果验证,确保科学实验的严谨性
- 🌟 亚历山大项目:通过大型语言模型将科学知识从版权负担中解放出来 – 提出了知识单元(KUs)作为一种结构化方法,用于AI驱动的科学知识提取,同时避免版权问题
强化学习与策略优化
- FSPO:LLM中合成偏好数据的少量样本偏好优化可对真实用户进行有效个性化 – 引入了一种少量样本学习方法,根据合成用户偏好数据个性化LLM
- 精简高效:全局价值引导下的解耦价值策略优化 – 提出了一种强化学习优化方法,在提高效率的同时减少计算开销
安全与AI对齐
- 代理系统守护者:通过代理系统防止多步越狱 – 开发了一个安全框架,通过多代理对齐技术来防止AI越狱尝试
- 大型语言模型中的关系特定神经元研究 – 调查了LLM中关系特定的神经元,识别了它们在结构化知识回忆和潜在干扰效应中的作用
压缩、推理与成本优化
- 🌟 最佳脑部凋亡 – 提出了一种新颖的神经元修剪技术,在保持准确性的同时显著加速推理
- 迈向最优多草稿推测解码 – 通过提高草稿验证效率,优化LLM中的推测解码,从而降低推理成本
今天就到这里。感谢您的阅读!
如果本文能帮助您的同事增强对人工智能的理解并保持领先,请与他们分享。