Claude-3.5 在 Open VLM 排行榜上的评估结果

社区文章发布于 2024 年 6 月 24 日

Claude3.5-Sonnet 是 Anthropic 发布的最新大型多模态模型，也是 Claude 3.5 系列的首个版本。根据官方博客，该模型在多模态理解方面超越了其前身 Claude3-Opus 和 Gemini-1.5-Pro。为验证这一点，我们在 Open VLM 排行榜的八个客观图像-文本多模态评估基准上测试了 Claude3.5-Sonnet。

数据集 \ 模型	GPT-4o-20240513	Claude3.5-Sonnet	Gemini-1.5-Pro	GPT-4v-20240409	Claude3-Opus
总排名	1	2	3	4	16
平均分数	69.9	67.9	64.4	63.5	54.4
MMBench v1.1	82.2	78.5	73.9	79.8	59.1
MMStar	63.9	62.2	59.1	56.0	45.7
MMMU_VAL	69.2	65.9	60.6	61.7	54.9
MathVista_MINI	61.3	61.6	57.7	54.7	45.8
HallusionBench 平均分	55.0	49.9	45.6	43.9	37.8
AI2D_TEST	84.6	80.2	79.1	78.6	70.6
OCRBench	736	788	754	656	694
MMVet	69.1	66	64	67.5	51.7

评估结果显示，Claude3.5-Sonnet 的客观性能相比 Claude3-Opus 大幅提升，所有基准的平均分数提高了 10% 以上，其总排名从第 16 位上升至第 2 位。具体而言，Claude3.5 在八个基准中有六个进入前两名，并在多模态数学和光学字符识别方面取得了最佳结果。

潜在问题：GPT-4o 和 Claude3.5-Sonnet 等 API 模型发布时附带了其在多个多模态评估基准上的官方报告性能。由于它们未公开测试脚本，我们未能复现官方报告的一些准确率（如 AI2D）。如果您能在某些基准上复现显著更高的准确率，请联系我们进行更新：opencompass@pjlab.org.cn。

如需更详细的性能表现，请参考Open VLM 排行榜。

社区

Liuzhiyadb

1 月 26 日

此评论已被隐藏

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论