阿拉伯语AI基准和排行榜
社区文章 发布于2025年3月4日

在过去的一年中,我们进行了大量基准测试,以测试阿拉伯语人工智能技术的各个方面,包括LLM性能、多模态/视觉、嵌入、检索、RAG生成、SST和OCR。本帖旨在全面记录阿拉伯语人工智能生态系统中的所有基准和排行榜。我们的目标是为社区提供一个集中资源,方便其轻松访问和识别适合其评估任务的基准,或选择特定任务的最佳模型。
排行榜
以下是测试阿拉伯语AI模型各方面的排行榜列表
LLM性能
名称 | 它评估什么? | 链接 | 评论 |
---|---|---|---|
开放阿拉伯语LLM排行榜(OALL)v2 | 通用知识、MMLU、语法、RAG生成、信任与安全、情感分析与方言 | https://huggingface.co/spaces/OALL/Open-Arabic-LLM-Leaderboard | v1 旧版 |
阿拉伯语排行榜 | IFEval、问答、正字法和语法分析、推理、安全 | https://huggingface.co/spaces/inceptionai/Arabic-Leaderboards | 封闭数据集(IFEval除外) |
规模印章 | 编码、创意、教育支持、创意开发、写作与沟通及其他 | https://scale.com/leaderboard/arabic | 封闭数据集,由人类专家手动评估 |
阿拉伯语综合排行榜(ABL) | 通过测试22项技能和类别的熟练程度,对阿拉伯语进行全面评估 | https://huggingface.co/spaces/silma-ai/Arabic-LLM-Broad-Leaderboard | 包括可视化、分析能力、模型技能分解、速度比较和污染检测机制 |
嵌入
名称 | 它评估什么? | 链接 | 评论 |
---|---|---|---|
MTEB(旧版) | 通用嵌入(句子到句子) | https://huggingface.co/spaces/mteb/leaderboard_legacy | 您需要点击STS -> 其他 -> 然后按STS17 (ar-ar) 列降序排列 |
阿拉伯语RAG排行榜 | 检索和重排序 | https://huggingface.co/spaces/Navid-AI/The-Arabic-Rag-Leaderboard | 计划添加RAG生成组件 |
视觉/OCR
名称 | 它评估什么? | 链接 | 评论 |
---|---|---|---|
CAMEL-Bench | 视觉理解、OCR、图表理解、视频、医学影像等 | https://huggingface.co/spaces/ahmedheakl/CAMEL-Bench-leaderboard |
语音
名称 | 它评估什么? | 链接 | 评论 |
---|---|---|---|
开放通用阿拉伯语ASR排行榜 | 多方言阿拉伯语ASR | https://huggingface.co/spaces/elmresearchcenter/open_universal_arabic_asr_leaderboard |
分词器
名称 | 它评估什么? | 链接 | 评论 |
---|---|---|---|
阿拉伯语分词器排行榜 | 通过生育率分数评估分词器效率 | https://huggingface.co/spaces/MohamedRashad/arabic-tokenizers-leaderboard |
基准数据集
以下是非全面的基准数据集列表,未来会不断增长。
注意:有大量研究数据集可用于基准测试目的,但在此列表中,我们将重点介绍最受欢迎的以及研究论文中常用作评估阿拉伯语模型的数据集。
通用
名称 | 它评估什么? | 链接 | 评论 |
---|---|---|---|
香脂指数 | 多项任务 | https://benchmarks.ksaa.gov.sa/b/balsam/tasks | 数据质量问题 |
RAG
名称 | 它评估什么? | 链接 | 评论 |
---|---|---|---|
SILMA RAGQA v1.0 | 17个阿拉伯语和英语的双语数据集,涵盖多个领域 | https://huggingface.co/datasets/silma-ai/silma-rag-qa-benchmark-v1.0 |
OCR
名称 | 它评估什么? | 链接 | 评论 |
---|---|---|---|
KITAB-Bench | 手写文本、结构化表格以及21种图表类型的专门覆盖,用于商业智能 | https://huggingface.co/collections/ahmedheakl/kitab-bench-677dd5d88d5db344d5595b78 |
MMLU 阿拉伯语
名称 | 它评估什么? | 链接 | 评论 |
---|---|---|---|
全球MMLU | MMLU | https://huggingface.co/datasets/CohereForAI/Global-MMLU/viewer/ar | |
阿拉伯语MMLU | https://huggingface.co/datasets/MBZUAI/ArabicMMLU?row=0 | 阿拉伯语多任务语言理解基准,来源于北非、黎凡特和海湾地区不同教育水平的国家学校考试。 |
缺少基准?
如果您认为列表中缺少某个基准或排行榜,请在下方留言,我们会考虑添加。