开放阿拉伯语大模型排行榜 2

发布日期:2025年2月10日
在 GitHub 上更新

阿拉伯语大模型排行榜的现状

支持阿拉伯语的大模型(无论是单语还是多语模型)日益增多,促使社区创建了专门的阿拉伯语排行榜。此前,专注于阿拉伯语的排行榜通常局限于特定作者推出的狭窄基准,通常作为其工作的演示。在这些情况下,作者会设置排行榜来展示模型在特定任务或数据集上的表现。另外,其他排行榜则要求用户在自己的计算资源上运行评估,然后提交包含其结果的 JSON 文件以供显示。

虽然这些方法有助于激发对阿拉伯语基准测试的初步兴趣,但它们也带来了一些挑战:

  1. 资源限制:许多社区成员无法获得评估所有可用开源模型所需的庞大计算资源,以便确定哪个模型最适合其下游项目或应用,被迫仅依赖模型开发者在其文档中分享的结果,而这些结果很多时候不允许直接比较。这种时间和计算能力上的高成本可能成为进一步开发阿拉伯语大模型的主要障碍,因此排行榜成为一个宝贵的共享资源。
  2. 报告结果的完整性:由于一些平台要求用户独立评估其模型,然后简单地提交一个分数文件,因此缺乏确保这些结果准确甚至是通过真实评估产生的健全机制。这种缺乏集中验证的情况可能会损害排行榜的可信度和公平性。

这些限制凸显了对一个更统一、更易访问、更透明的基准测试平台的需求——一个不仅能够而且鼓励整个阿拉伯语自然语言处理社区进行真实且可复现实验的平台。为了解决这些问题,2024年5月,2A2I、TII和HuggingFace推出了第一个版本的开放阿拉伯语大模型排行榜 - OALL [1],其中包含14个基准测试,涵盖阅读理解、情感分析和问答等广泛任务。

2024年9月,沙特数据与人工智能管理局(SDAIA)与阿卜杜拉国王全球阿拉伯语学院合作推出了Balsam Index,该指数包含约1400个数据集,涵盖67个任务,共50000个问题,例如语法纠正、释义、因果分类和文本理解等。

同年12月5日,Inception 和 MBZUAI 宣布推出AraGen 排行榜,这是第一个用于阿拉伯语的生成任务排行榜,引入了 3C3H 评估指标,该指标使用带有私有测试的动态评估周期,并提供了一个原生阿拉伯语且具有文化意识的生成任务数据集 AraGen Bench,用于评估大模型在四个主要任务中的表现。

为了圆满结束这一年,2024年12月19日,Scale 的安全、评估和对齐实验室(SEAL)发布了一个阿拉伯语排行榜,作为其多语言排行榜的一部分。这个排行榜所依据的基准测试始终是私有的,就像其所有其他语言的排行榜一样,它依赖于人类偏好评估,使用包含1000个阿拉伯语提示的数据集,旨在提高聊天机器人在复杂和文化微妙对话中的交互能力。

前一个排行榜的影响

在发布不到7个月后,第一版开放阿拉伯语大模型排行榜迅速成为阿拉伯语AI社区的重要平台,上个月(2025年1月)吸引了超过46,000名访问者和2,000多次访问。HuggingFace空间获得了超过100个点赞和Google Scholar上的8次引用。社区提交了700多个模型,参数从1B到70B以上不等。提交的模型来自超过180个独立组织,使其成为最活跃的大模型评估排行榜之一。自发布以来,该排行榜在社交媒体、HuggingFace、Reddit等平台上引发了大量热烈讨论,使其成为迄今为止最著名的阿拉伯语排行榜。

如图1所示,在提交到排行榜初始版本的约700个模型中,大部分是聊天和微调模型,占比超过70%,而预训练模型仅占11%。在模型大小方面,超过50%的模型小于7B参数。

图 1:模型类型和大小的分布。我们省略了未知模型类型('?')的计数,因为它仅占总请求的0.12%。

与其他语言的排行榜相比,如图2所示,开放阿拉伯语大模型排行榜是其中最活跃的排行榜之一,紧随韩语波兰语葡萄牙语排行榜之后,所有这些排行榜均在发布不到一年内。考虑到阿拉伯语是全球使用人数最多的语言之一,但互联网上可用的内容相对有限,这些数字与其他语言相比更具重要意义。

图2:Huggingface 上托管的不同 MCQ 排行榜中已评估模型的数量与运行时间(月)的关系。数据收集于2025年1月13日之前。涵盖语言:阿拉伯语中文-中国中文-台湾捷克语荷兰语法语希伯来语冰岛语意大利语日语韩语 (v2)马来语波斯语波兰语葡萄牙语西班牙语土耳其语

为什么需要一个新的排行榜?

最近社区内的讨论,包括对开放阿拉伯语大模型排行榜(OALL)和类似倡议的批评,突显了当前基准测试实践中的关键缺陷 [2]。许多研究人员、开发人员和语言爱好者都强调,需要更直接地评估阿拉伯语特定任务,提高基准测试创建的透明度,并纳入更多样化的数据集,以反映阿拉伯语方言、领域和实际应用的广度。这些见解在塑造更新后的排行榜中发挥了核心作用。

阿拉伯语具有独特的挑战和特点,需要超越一般自然语言处理任务的专门评估。这包括复杂的语法、丰富而复杂的形态、口语方言的多样性以及文化上细致入微的安全相关考量。一个能解决这些因素的排行榜可以更清晰地反映模型在真实阿拉伯语语言环境中的表现。

在 OALL 的第一次迭代中,很大一部分数据集和任务源自非阿拉伯语环境。当这些任务适应阿拉伯语时,它们往往无法反映实际用例或满足阿拉伯语社区的实际需求。许多任务是英语的直接翻译,这经常引入语言和上下文不匹配。这种方法忽略了阿拉伯语独特的形态和句法复杂性,使得这些任务在衡量真正的语言理解和建模能力方面效果不佳。

此外,OALL 第一版中的一些基准测试随着时间的推移变得效果不佳,因为模型获得了近乎完美的分数,限制了它们区分增量改进的能力。作为回应,新排行榜取代了这些饱和的基准测试,引入了一套更相关、更最新的评估任务。

为了弥补这些差距,新的排行榜包含了本地开发于阿拉伯语的任务。这些任务旨在捕捉语言的独特特征——例如其丰富的形态、微妙的语法和特定于上下文的用法——这些元素在基于翻译的基准测试中经常丢失。这种转变确保了评估更真实,并与阿拉伯语使用的实际情况更好地对齐。

此外,我们在主要任务之一AlGhafa中发现了一个“静默”错误,它无意中影响了模型排名。问题源于答案选项检查方式的不匹配——任务不是验证其索引,而是根据选项本身评估响应。虽然这并非完全不正确,但它对小型/弱模型的影响尤为显著。一些模型的分数下降了多达20分,而较强的模型则相对不受影响。这个问题损害了评估的一致性、公平性和统一性。

此版本有什么新功能?

在改革排行榜时,我们遵循两个指导原则:移除饱和和机器翻译任务,因为它们固有的质量较低且可能存在文化偏见;添加新近可用的高质量原生或人工整理基准,以增加评估的覆盖范围。

从开放阿拉伯语大模型排行榜(OALL)的第一版中,我们保留了以下基准数据集:

  • AlGhafa 基准 [3]:从 TII 发布的原始基准中,我们只保留了原生阿拉伯语数据集,即人工整理的 Facts-Balanced、SOCAL、XGLUE、Sentiment、Sentiment-Rating、Sentiment-Rating-No-Neutral 版本,以及来自 Meta 的 Belebele [4] 的两个阿拉伯语任务(阿拉伯语-MSA 和阿拉伯语-方言),最后是阿拉伯语 EXAMS 基准 [5]。

我们通过添加以下去年发布的数据集来丰富排行榜:

  • 原生阿拉伯语 MMLU [6]:MBZUAI 发布的一个原生阿拉伯语基准,灵感来源于原始英语 MMLU 数据集;包含 40 个任务和近 15,000 个现代标准阿拉伯语(MSA)多项选择题,来源于学校考试。
  • 人工翻译 MMLU(MMLU-HT)[7]:Inception 在 JAIS 项目中整理的原始英语 MMLU 数据集的人工翻译版本,包含 57 个任务,由 MBZUAI HF 组织发布。
  • MedinaQA:由MBZUAI发布,旨在促进更多原生阿拉伯语基准的采用。该数据集侧重于通用阿拉伯语语言和语法方面。
  • AraTrust [8]:一个包含 522 个人工编写的多项选择题的数据集,涵盖了与安全性和真实性相关的不同方面。

最后,我们推出了 ALRAGE 基准测试:阿拉伯语语言检索增强生成评估。它引入了一个全面的框架,用于评估大型语言模型在阿拉伯语中的检索增强生成能力。该基准测试基于一个精心策划的数据集,该数据集来源于40本涵盖艺术与文学到技术与创新等各种主题的阿拉伯语书籍,使用 meta-llama/Meta-Llama-3.1-70B 进行合成生成,并通过与 Argilla 合作的社区冲刺由原生阿拉伯语使用者进行验证。数据集结构包括问题、真实答案、通过 BAAI/bge-m3 嵌入模型检索到的候选上下文以及目标候选索引,所有这些都旨在真实模拟阿拉伯语中的实际 RAG 场景。

ALRAGE 的创新之处在于其评估方法,该方法在 lighteval 框架内实现了大模型作为裁判的度量。系统使用 Qwen2.5-72B-Instruct 作为裁判模型,通过结构化的阿拉伯语提示将模型的输出与标准答案进行比较,从而评估生成的响应。评估采用细致入微的 0-10 分评分标准,评估答案的准确性、相关性和质量,并将分数标准化为 0-1 范围。这种通过自定义 JudgeMetricWrapper 类实现的技术实现,为评估阿拉伯语生成提供了一个严谨、可复现的方法,同时保持了对阿拉伯语语言细微差别的敏感性,有效地解决了阿拉伯语自然语言处理中对复杂评估指标的关键需求。

表1总结了排行榜第一版保留的数据集以及第二版引入的新数据集。

OALL v1保留的数据集 OALL v2新增的数据集
AlGhafa(6个任务) 原生阿拉伯语 MMLU(40个任务)
EXAMS 人工翻译MMLU(57个任务)
Belebele(2个任务) MedinaQA
AraTrust
ALRAGE
表1:开放阿拉伯语大模型排行榜(OALL v2)第二版中使用的数据集概述

除了添加和删除数据集,我们还修复了与用户界面及其过滤器相关的多个问题,并引入了聊天模板。在用户提交方面,现在每个组织每周的提交数量限制为5个。此限制旨在限制排行榜的使用,并为不同组织提供评估其模型的机会。请注意,对于OALL团队提交到v2的模型,如果在配置中找到聊天模板,则将其用于评估。否则,聊天模板将禁用。

v1 和 v2 的结果

为了评估开放阿拉伯语大模型排行榜第二次迭代的影响,我们对两个版本进行了一系列统计比较。

图3显示了版本1和版本2在六个基准测试中的性能得分。值得注意的是,ACVA 和 Toxigen 在不同模型尺寸下表现出饱和效应。版本1中的 Alghafa 饱和度较低,我们推测这是由于同时包含了原生和翻译的阿拉伯语基准。相比之下,AraTrust、ALRAGE 和 Alghafa 在 v2 中的模型性能与模型尺寸的关系更加分散。

图3:开放阿拉伯语大模型排行榜两个版本中已移除/保留/添加任务的行为比较。

为了检验OALL与其他阿拉伯语大模型排行榜之间的相关性,我们比较了五款开放阿拉伯语大模型:google/gemma-2-27b-itCohereForAI/aya-23-35BCohereForAI/aya-expanse-32binceptionai/jais-adapted-70b-chatmeta-llama/Llama-3.3-70B-Instruct 在三个排行榜上的相对排名:OALL v2、SEAL Arabic 和 AraGen。如图4所示,排行榜之间存在显著相关性,Llama3.3-70-instruct 模型在OALL v2和AraGen上均排名第一,在SEAL上排名第三。*需要澄清的是,AraGen 目前仅包含 inceptionai/jais-adapted-70b-chat 的分数,而阿拉伯语SEAL排行榜仅包含 Jais Adapted 70B,因此推测是预训练模型。由于我们无法完全解决此差异,我们决定在OALL v2上评估 inceptionai/jais-adapted-70b-chat 以进行此比较。

图4:开放阿拉伯语大模型排行榜第二版与AraGen和SEAL-Arabic排行榜上五款开放模型的相对排名比较。数据检索于2025年1月29日。

为了进一步探讨OALL两个版本之间的差异,我们在图5中展示了两个类别中的顶尖模型:预训练模型和聊天模型。对于提交到OALL v1的模型,Qwen2.5 在所有类别中,尤其是预训练模型中,都确立了其强大的阿拉伯语基线地位。在OALL v2中,Qwen模型也主导了预训练模型类别,然而 Qwen/Qwen2-72B 模型超越了 Qwen/Qwen2.5-72B 成为最佳预训练/持续预训练模型,而 Llama3.3-70B-instruct 则成为所有类别的领先者,性能超越了calme-2.1-qwen2.5-72b。总体而言,v2中一些模型的排名有所变化,而另一些则保持不变。我们将这些变化归因于两个关键因素:首先,模型在阿拉伯语原生基准、安全性和可信度方面的稳健性;其次,OALL v1中评估了700多个模型,而v2中评估了80个模型,其中包括一些v1中可能不存在的新模型。我们预计社区将会在排行榜发布后继续做出贡献,扩展排行榜。

图5:每个模型大小范围内最佳预训练/持续预训练模型的比较。

最后,我们分析了 AceGPT 和 Jais 两个模型家族在 OALL v1 和 v2 上的平均得分。如图6所示,两个版本中的趋势是一致的:大型模型往往获得更高的平均得分,但 inceptionai/jais-family-30b-8k 除外,它在 OALL v2 上超越了更大的 inceptionai/jais-adapted-70b 模型。总体而言,v2 的平均得分高于 v1,除了两个家族中的 7B 模型。我们推测这种差异是由于较小的模型在 ALRAGE 上的性能较低,因为这是一个生成任务,通常对大型模型更有利。

图6:AceGPT 和 Jais 模型家族的比较。

结论和未来工作

在这篇博客文章中,我们介绍了开放阿拉伯语大模型排行榜的第二版。我们分析了现有的阿拉伯语排行榜以及 OALL 的第一版,指出了特定基准饱和等问题,这些问题在第二版中已移除。我们还移除了机器翻译的基准,只保留了阿拉伯语原生和人工翻译的基准。最后,我们引入了新的基准,如 Aratrust、MadinaQA、原生 MMLU、人工翻译 MMLU(MMLU-HT)和 ALRAGE。我们的目标是为社区提供一个客观的阿拉伯语大模型评估,帮助理解每个提交模型的优势和劣势。

展望未来,我们希望能看到更多阿拉伯语基准的发布,尤其是在数学、推理、幻觉以及通用和领域特定基准等领域。

致谢

作者要感谢穆罕默德·本·扎耶德人工智能大学(MBZUAI)提供了本版本中使用的一些新原生基准,包括新的 MMLU-HT 数据集。我们还要感谢 TII 慷慨赞助评估后端所需的推理硬件。我们还要感谢 Hugging Face 的朋友们持续的支持,并且在需要时总是 🤗。感谢所有致力于语言和任务评估和排行榜的人们。最后,我们感谢社区对 OALL 第一版的参与和宝贵反馈。期待在排行榜上看到更多模型 🚀。

引用

@misc{OALL2,
  author = {El Filali, Ali and ALOUI, Manel and Husaain, Tarique and Alzubaidi, Ahmed and Boussaha, Basma El Amel and Cojocaru, Ruxandra and Fourrier, Clémentine and Habib, Nathan and Hacid, Hakim},
  title = {The Open Arabic LLM Leaderboard 2},
  year = {2025},
  publisher = {OALL},
  howpublished = {https://huggingface.co/spaces/OALL/Open-Arabic-LLM-Leaderboard}
}

参考文献

社区

感谢这篇详细的文章。为什么没有提到 SDAIA 的 Allam?

·
文章作者

发布时(2025年2月10日),Hub 上还没有 SDAIA 的 ALLaM 可供评估!

注册登录以评论