Claude-3.5 在 Open VLM 排行榜上的评估结果
社区文章 发布于 2024 年 6 月 24 日
Claude3.5-Sonnet 是 Anthropic 发布的最新大型多模态模型,也是 Claude 3.5 系列的首个版本。根据官方博客,该模型在多模态理解方面超越了其前身 Claude3-Opus 和 Gemini-1.5-Pro。为验证这一点,我们在 Open VLM 排行榜的八个客观图像-文本多模态评估基准上测试了 Claude3.5-Sonnet。
数据集 \ 模型 | GPT-4o-20240513 | Claude3.5-Sonnet | Gemini-1.5-Pro | GPT-4v-20240409 | Claude3-Opus |
---|---|---|---|---|---|
总排名 | 1 | 2 | 3 | 4 | 16 |
平均分数 | 69.9 | 67.9 | 64.4 | 63.5 | 54.4 |
MMBench v1.1 | 82.2 | 78.5 | 73.9 | 79.8 | 59.1 |
MMStar | 63.9 | 62.2 | 59.1 | 56.0 | 45.7 |
MMMU_VAL | 69.2 | 65.9 | 60.6 | 61.7 | 54.9 |
MathVista_MINI | 61.3 | 61.6 | 57.7 | 54.7 | 45.8 |
HallusionBench 平均分 | 55.0 | 49.9 | 45.6 | 43.9 | 37.8 |
AI2D_TEST | 84.6 | 80.2 | 79.1 | 78.6 | 70.6 |
OCRBench | 736 | 788 | 754 | 656 | 694 |
MMVet | 69.1 | 66 | 64 | 67.5 | 51.7 |
评估结果显示,Claude3.5-Sonnet 的客观性能相比 Claude3-Opus 大幅提升,所有基准的平均分数提高了 10% 以上,其总排名从第 16 位上升至第 2 位。具体而言,Claude3.5 在八个基准中有六个进入前两名,并在多模态数学和光学字符识别方面取得了最佳结果。
潜在问题:GPT-4o 和 Claude3.5-Sonnet 等 API 模型发布时附带了其在多个多模态评估基准上的官方报告性能。由于它们未公开测试脚本,我们未能复现官方报告的一些准确率(如 AI2D)。如果您能在某些基准上复现显著更高的准确率,请联系我们进行更新:opencompass@pjlab.org.cn。
如需更详细的性能表现,请参考Open VLM 排行榜。