阿拉伯语AI基准和排行榜

社区文章 发布于2025年3月4日

image/webp

在过去的一年中,我们进行了大量基准测试,以测试阿拉伯语人工智能技术的各个方面,包括LLM性能、多模态/视觉、嵌入、检索、RAG生成、SST和OCR。本帖旨在全面记录阿拉伯语人工智能生态系统中的所有基准和排行榜。我们的目标是为社区提供一个集中资源,方便其轻松访问和识别适合其评估任务的基准,或选择特定任务的最佳模型。

排行榜

以下是测试阿拉伯语AI模型各方面的排行榜列表

LLM性能

名称 它评估什么? 链接 评论
开放阿拉伯语LLM排行榜(OALL)v2 通用知识、MMLU、语法、RAG生成、信任与安全、情感分析与方言 https://huggingface.co/spaces/OALL/Open-Arabic-LLM-Leaderboard v1 旧版
阿拉伯语排行榜 IFEval、问答、正字法和语法分析、推理、安全 https://huggingface.co/spaces/inceptionai/Arabic-Leaderboards 封闭数据集(IFEval除外)
规模印章 编码、创意、教育支持、创意开发、写作与沟通及其他 https://scale.com/leaderboard/arabic 封闭数据集,由人类专家手动评估
阿拉伯语综合排行榜(ABL) 通过测试22项技能和类别的熟练程度,对阿拉伯语进行全面评估 https://huggingface.co/spaces/silma-ai/Arabic-LLM-Broad-Leaderboard 包括可视化、分析能力、模型技能分解、速度比较和污染检测机制

嵌入

名称 它评估什么? 链接 评论
MTEB(旧版) 通用嵌入(句子到句子) https://huggingface.co/spaces/mteb/leaderboard_legacy 您需要点击STS -> 其他 -> 然后按STS17 (ar-ar) 列降序排列
阿拉伯语RAG排行榜 检索和重排序 https://huggingface.co/spaces/Navid-AI/The-Arabic-Rag-Leaderboard 计划添加RAG生成组件

视觉/OCR

名称 它评估什么? 链接 评论
CAMEL-Bench 视觉理解、OCR、图表理解、视频、医学影像等 https://huggingface.co/spaces/ahmedheakl/CAMEL-Bench-leaderboard

语音

名称 它评估什么? 链接 评论
开放通用阿拉伯语ASR排行榜 多方言阿拉伯语ASR https://huggingface.co/spaces/elmresearchcenter/open_universal_arabic_asr_leaderboard

分词器

名称 它评估什么? 链接 评论
阿拉伯语分词器排行榜 通过生育率分数评估分词器效率 https://huggingface.co/spaces/MohamedRashad/arabic-tokenizers-leaderboard

基准数据集

以下是非全面的基准数据集列表,未来会不断增长。

注意:有大量研究数据集可用于基准测试目的,但在此列表中,我们将重点介绍最受欢迎的以及研究论文中常用作评估阿拉伯语模型的数据集。

通用

名称 它评估什么? 链接 评论
香脂指数 多项任务 https://benchmarks.ksaa.gov.sa/b/balsam/tasks 数据质量问题

RAG

名称 它评估什么? 链接 评论
SILMA RAGQA v1.0 17个阿拉伯语和英语的双语数据集,涵盖多个领域 https://huggingface.co/datasets/silma-ai/silma-rag-qa-benchmark-v1.0

OCR

名称 它评估什么? 链接 评论
KITAB-Bench 手写文本、结构化表格以及21种图表类型的专门覆盖,用于商业智能 https://huggingface.co/collections/ahmedheakl/kitab-bench-677dd5d88d5db344d5595b78

MMLU 阿拉伯语

名称 它评估什么? 链接 评论
全球MMLU MMLU https://huggingface.co/datasets/CohereForAI/Global-MMLU/viewer/ar
阿拉伯语MMLU https://huggingface.co/datasets/MBZUAI/ArabicMMLU?row=0 阿拉伯语多任务语言理解基准,来源于北非、黎凡特和海湾地区不同教育水平的国家学校考试。

缺少基准?

如果您认为列表中缺少某个基准或排行榜,请在下方留言,我们会考虑添加。

社区

感谢各位对阿拉伯语排行榜的全面整理。以下是我遇到的一些,想与大家分享

我想建议一个缺失的基准
ARB:一个全面的阿拉伯语多模态推理基准
它专注于评估阿拉伯语模型在多模态和推理能力方面的表现。请考虑将其添加到列表中!

注册登录 以发表评论