Claude-3.5 在 Open VLM 排行榜上的评估结果

社区文章 发布于 2024 年 6 月 24 日

image/png

Claude3.5-Sonnet 是 Anthropic 发布的最新大型多模态模型,也是 Claude 3.5 系列的首个版本。根据官方博客,该模型在多模态理解方面超越了其前身 Claude3-Opus 和 Gemini-1.5-Pro。为验证这一点,我们在 Open VLM 排行榜的八个客观图像-文本多模态评估基准上测试了 Claude3.5-Sonnet。

数据集 \ 模型 GPT-4o-20240513 Claude3.5-Sonnet Gemini-1.5-Pro GPT-4v-20240409 Claude3-Opus
总排名 1 2 3 4 16
平均分数 69.9 67.9 64.4 63.5 54.4
MMBench v1.1 82.2 78.5 73.9 79.8 59.1
MMStar 63.9 62.2 59.1 56.0 45.7
MMMU_VAL 69.2 65.9 60.6 61.7 54.9
MathVista_MINI 61.3 61.6 57.7 54.7 45.8
HallusionBench 平均分 55.0 49.9 45.6 43.9 37.8
AI2D_TEST 84.6 80.2 79.1 78.6 70.6
OCRBench 736 788 754 656 694
MMVet 69.1 66 64 67.5 51.7

评估结果显示,Claude3.5-Sonnet 的客观性能相比 Claude3-Opus 大幅提升,所有基准的平均分数提高了 10% 以上,其总排名从第 16 位上升至第 2 位。具体而言,Claude3.5 在八个基准中有六个进入前两名,并在多模态数学和光学字符识别方面取得了最佳结果。

潜在问题:GPT-4o 和 Claude3.5-Sonnet 等 API 模型发布时附带了其在多个多模态评估基准上的官方报告性能。由于它们未公开测试脚本,我们未能复现官方报告的一些准确率(如 AI2D)。如果您能在某些基准上复现显著更高的准确率,请联系我们进行更新:opencompass@pjlab.org.cn

如需更详细的性能表现,请参考Open VLM 排行榜

社区

此评论已被隐藏

注册登录 发表评论