PHYBench重大更新发布

社区文章 发布于2025年5月25日

PHYBench项目已进行重大更新,在平台功能和实验研究设计方面均进行了全面升级。此次发布旨在进一步推进AI模型物理推理能力的评估和理解。

(1)新平台上线

我们已在https://www.phybench.cn/正式发布了一个新的交互式网站,该网站包含:

  • 在PHYBench上评估的20个主流模型的可视化排行榜,报告准确率EED分数,并提供物理子领域的详细分类。

  • 一个事件时间线模块,记录了PHYBench开发的关键里程碑,允许用户跟踪数据集及其评估框架的演变。

(2)实验增强与论文重组

我们重新组织了论文,并增加了关键实验,以进一步证明PHYBench作为高质量基准的鲁棒性和重要性。

请查阅我们的新版论文:https://arxiv.org/abs/2504.16074v2

评估质量验证

  • PHYBench问题消耗的标记(tokens)远超现有基准——包括竞赛级别的数据集——这凸显了它们的更高复杂性

  • 模型在PHYBench上的得分普遍较低,并呈现出更清晰可辨的分布,从而更容易区分不同的推理能力。

  • 测试时缩放实验显示,随着采样增加,各模型表现出持续的上升趋势,这证实了顺序保留性能鲁棒的分数缩放,进一步验证了PHYBench作为一个可靠的评估基准。

模型推理中的错误定位

我们的分析表明,当前模型在解决问题的两端表现良好:它们能够理解问题陈述对给定的方程进行符号操作。然而,它们在应用物理定律构建新方程的中间步骤上表现不佳。

这个问题主要源于语义推理能力不足,即模型往往未能完全掌握物理定律的含义和适用性,从而导致公式频繁被误用。

推理模式分析:表面推理

我们将表面推理定义为模型通过模式匹配(例如,回忆特定的中间结论或解题步骤)而非真正理解物理原理来得出答案的行为。

为了探究这一点,我们设计了系统性的扰动实验。通过向原本正确的解题链中注入目标错误(例如,修改物理定律、篡改语义分析或更改方程),我们评估了模型的鲁棒性和纠错能力。

根据结果,我们将模型推理行为分为三类:

  • 表面推理:模型遵循被扰动的推理链而不进行纠正,无法检测或从错误中恢复。这种模式常见于非推理模型(例如GPT-4o,DeepSeek-V3)和早期推理模型(例如o1-preview)。

  • 伪真实推理:模型通过采用特定的检测启发式方法表现出部分鲁棒性。例如,DeepSeek-R1模型对物理量进行量纲分析和散度检查,以在方程层面稳定其响应。然而,它在语义推理方面仍然脆弱。Gemini 2.5 Pro则通过依赖大量形式推导和大规模方程系统完全避免语义推理。尽管这带来了高鲁棒性,但它缺乏语义可解释性。

  • 真实推理(理想方向):模型能够基于物理理解对错误进行反思和纠正,在扰动下表现出更强和更一致的推理性能。


我们将继续在基准方法、推理行为刻画和深度模型能力分析等方向推进PHYBench。我们欢迎研究人员和实践者的反馈和参与。网站和评估结果将定期更新,期待您的见解和合作。

社区

注册登录 以发表评论