PHYBench重大更新发布
PHYBench项目已进行重大更新,在平台功能和实验研究设计方面均进行了全面升级。此次发布旨在进一步推进AI模型物理推理能力的评估和理解。
(1)新平台上线
我们已在https://www.phybench.cn/正式发布了一个新的交互式网站,该网站包含:
在PHYBench上评估的20个主流模型的可视化排行榜,报告准确率和EED分数,并提供物理子领域的详细分类。
一个事件时间线模块,记录了PHYBench开发的关键里程碑,允许用户跟踪数据集及其评估框架的演变。
(2)实验增强与论文重组
我们重新组织了论文,并增加了关键实验,以进一步证明PHYBench作为高质量基准的鲁棒性和重要性。
请查阅我们的新版论文:https://arxiv.org/abs/2504.16074v2
评估质量验证
- PHYBench问题消耗的标记(tokens)远超现有基准——包括竞赛级别的数据集——这凸显了它们的更高复杂性。
- 模型在PHYBench上的得分普遍较低,并呈现出更清晰可辨的分布,从而更容易区分不同的推理能力。
- 测试时缩放实验显示,随着采样增加,各模型表现出持续的上升趋势,这证实了顺序保留性能和鲁棒的分数缩放,进一步验证了PHYBench作为一个可靠的评估基准。
模型推理中的错误定位
我们的分析表明,当前模型在解决问题的两端表现良好:它们能够理解问题陈述并对给定的方程进行符号操作。然而,它们在应用物理定律构建新方程的中间步骤上表现不佳。
这个问题主要源于语义推理能力不足,即模型往往未能完全掌握物理定律的含义和适用性,从而导致公式频繁被误用。
推理模式分析:表面推理
我们将表面推理定义为模型通过模式匹配(例如,回忆特定的中间结论或解题步骤)而非真正理解物理原理来得出答案的行为。
为了探究这一点,我们设计了系统性的扰动实验。通过向原本正确的解题链中注入目标错误(例如,修改物理定律、篡改语义分析或更改方程),我们评估了模型的鲁棒性和纠错能力。
根据结果,我们将模型推理行为分为三类:
表面推理:模型遵循被扰动的推理链而不进行纠正,无法检测或从错误中恢复。这种模式常见于非推理模型(例如GPT-4o,DeepSeek-V3)和早期推理模型(例如o1-preview)。
伪真实推理:模型通过采用特定的检测启发式方法表现出部分鲁棒性。例如,DeepSeek-R1模型对物理量进行量纲分析和散度检查,以在方程层面稳定其响应。然而,它在语义推理方面仍然脆弱。Gemini 2.5 Pro则通过依赖大量形式推导和大规模方程系统完全避免语义推理。尽管这带来了高鲁棒性,但它缺乏语义可解释性。
真实推理(理想方向):模型能够基于物理理解对错误进行反思和纠正,在扰动下表现出更强和更一致的推理性能。
我们将继续在基准方法、推理行为刻画和深度模型能力分析等方向推进PHYBench。我们欢迎研究人员和实践者的反馈和参与。网站和评估结果将定期更新,期待您的见解和合作。