PHYBench重大更新发布

社区文章发布于2025年5月25日

PHYBench项目已进行重大更新，在平台功能和实验研究设计方面均进行了全面升级。此次发布旨在进一步推进AI模型物理推理能力的评估和理解。

（1）新平台上线

我们已在https://www.phybench.cn/正式发布了一个新的交互式网站，该网站包含：

我们重新组织了论文，并增加了关键实验，以进一步证明PHYBench作为高质量基准的鲁棒性和重要性。

测试时缩放实验显示，随着采样增加，各模型表现出持续的上升趋势，这证实了顺序保留性能和鲁棒的分数缩放，进一步验证了PHYBench作为一个可靠的评估基准。

我们的分析表明，当前模型在解决问题的两端表现良好：它们能够理解问题陈述并对给定的方程进行符号操作。然而，它们在应用物理定律构建新方程的中间步骤上表现不佳。

这个问题主要源于语义推理能力不足，即模型往往未能完全掌握物理定律的含义和适用性，从而导致公式频繁被误用。

我们将表面推理定义为模型通过模式匹配（例如，回忆特定的中间结论或解题步骤）而非真正理解物理原理来得出答案的行为。

为了探究这一点，我们设计了系统性的扰动实验。通过向原本正确的解题链中注入目标错误（例如，修改物理定律、篡改语义分析或更改方程），我们评估了模型的鲁棒性和纠错能力。

根据结果，我们将模型推理行为分为三类：

表面推理：模型遵循被扰动的推理链而不进行纠正，无法检测或从错误中恢复。这种模式常见于非推理模型（例如GPT-4o，DeepSeek-V3）和早期推理模型（例如o1-preview）。
伪真实推理：模型通过采用特定的检测启发式方法表现出部分鲁棒性。例如，DeepSeek-R1模型对物理量进行量纲分析和散度检查，以在方程层面稳定其响应。然而，它在语义推理方面仍然脆弱。Gemini 2.5 Pro则通过依赖大量形式推导和大规模方程系统完全避免语义推理。尽管这带来了高鲁棒性，但它缺乏语义可解释性。
真实推理（理想方向）：模型能够基于物理理解对错误进行反思和纠正，在扰动下表现出更强和更一致的推理性能。

我们将继续在基准方法、推理行为刻画和深度模型能力分析等方向推进PHYBench。我们欢迎研究人员和实践者的反馈和参与。网站和评估结果将定期更新，期待您的见解和合作。

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以发表评论