ILMAAM:用于阿拉伯语模型多任务评估的索引

自然语言处理(NLP)领域近年来取得了长足进步,但尽管有这些进步,阿拉伯语却常常被忽视。这就是 ILMAAM 介入的地方。
ILMAAM — **阿拉伯语模型多任务评估索引** — 是一个综合性排行榜,用于评估阿拉伯语模型在各种主题上的表现,深入了解这些模型处理多任务学习的能力。
为什么选择 ILMAAM?
阿拉伯语是全球使用最广泛的语言之一,但在评估大型语言模型在阿拉伯语特定任务上的表现方面存在显著差距。大多数 NLP 模型都是在英语数据集上开发和微调的,这限制了它们对阿拉伯语使用者和研究人员的实用性。
ILMAAM 旨在通过提供一个标准化基准来弥补这一差距,以评估阿拉伯语大型语言模型或见过一些阿拉伯语标记的模型在各种任务上的表现,包括抽象代数、临床知识、高中科目等。它旨在为预训练和指令微调模型提供全面的评估过程,特别关注阿拉伯语独特的语言挑战。
ILMAAM 的结构
到目前为止,我们的排行榜展示了 29 个高性能模型,包括最新加入的 Llama、Jais、cohere 和 Qwen 模型。
这些模型分为两大类:
- 预训练模型:在大量文本数据上训练,没有特定指令。
- 指令微调模型:针对特定任务进行微调,帮助它们在多任务场景中表现更好。
ILMAAM 上的模型根据其在不同主题上的表现进行评估,每个主题都代表一个关键研究领域,从初等数学到国际法。这确保了模型的多功能性,能够适应各种实际用例。
文化契合度与主题选择
在 ILMAAM 中,我们致力于确保所有评估的模型都符合文化和道德考量,特别是在阿拉伯语和文化规范的背景下。因此,尽管我们评估模型在广泛主题的每个主题上 100 个问题上的表现,但某些主题已被排除,以确保与当地文化敏感性保持一致。诸如道德争议、法理学等主题已被排除在评估之外,以避免文化错位。
这一决定源于开发基准的需要,这些基准不仅测试模型性能,还尊重阿拉伯语社会的细微差别。
随着 阿拉伯语 NLP 的不断发展,确保文化相关性仍然是我们评估过程的核心方面。ILMAAM 在技术评估与文化知情判断之间建立了先例,帮助研究界和组织做出明智的决策。
性能评估亮点 📊
在对最流行的阿拉伯语大型语言模型进行评估后,结果已经出炉——它们揭示了一个竞争激烈的格局!
📊 性能亮点
🔹 表现最佳的模型包括 Qwen 2.5-32B-Instruct、CohereForAI c4ai-command 和 Google 的 Gemma 系列——所有这些模型在广泛的主题上都表现出色。
🔹 Qwen 2.5-32B-Instruct 以 60.27% 的平均准确率位居排行榜榜首,在 high_school_government_and_politics 中表现出色,准确率高达 77%,在 high_school_statistics 中表现也相当不错,达到 70%。
🔹 CohereForAI c4ai-command 紧随其后,准确率为 59.85%,在 high_school_us_history 中以 86% 的准确率脱颖而出。
🔹 Google 的 Gemma 2-9b 获得第三名,准确率为 57.73%,在 high_school_statistics 中表现出色,准确率高达 79%。
🔹 Qwen 2.5-7B-Instruct 表现强劲,准确率为 55.57%,在 high_school_government_and_politics (71%) 和 high_school_statistics (66%) 中表现良好。
关键洞察:
🔸 Qwen 系列模型表现持续良好,尤其是在政府和政治等社会科学领域。
🔸 CohereForAI 模型在历史和社会科学方面表现出强大的知识储备,在美国和欧洲历史方面均取得了令人瞩目的成绩。
🔸 Google 的 Gemma 模型在所有科目中表现稳定,展现出全面的知识基础。
🔸 有趣的是,在 Open-Arabic-LLM-Leaderboard 上表现最佳的模型——silma-ai/SILMA-9B-Instruct-v1.0——在本次 MMMLU 评估中排名第五,整体准确率为 53.33%。
我们现在已经扩展了 ILMAAM,增加了 29 个表现最佳的模型,包括 Meta 的 Llama 系列和 Inception 的 Jais 模型的最新版本。然而,来自阿里云的 Qwen LLM 继续位居排行榜榜首,展示了其在不断发展的阿拉伯语 NLP 世界中的强大性能。
ILMAAM 的含义 🔍
ILMAAM 这个名称在其首字母缩写和阿拉伯语根源上都具有深远的意义。ILMAAM 代表着**阿拉伯语模型多任务评估索引**(Index for Language Models for Arabic Assessment on Multitasks),但这个词本身在阿拉伯语中有着丰富的含义。
在阿拉伯语中,“إلمام” (ILMAAM) 意为“全面知识”或“意识”。这完美地反映了排行榜的使命——它旨在全面了解各种语言模型在广泛任务中的表现,特别是在阿拉伯语背景下。这个名称象征着评估的广度和深度,因为 ILMAAM 旨在提供阿拉伯语 NLP 模型性能的整体视图。
ILMAAM 的目标是超越简单的基准测试,提供一个全面的索引,研究人员、开发人员和组织可以依靠它来就哪些模型最适合他们的多任务评估需求做出明智选择。通过精心策划和评估模型,ILMAAM 忠于其名称,提供一个知识全面、周到、彻底的平台——就像 ILMAAM 本身所蕴含的意义一样。
如何提交您的模型 🚀
有兴趣看看您的模型在 ILMAAM 上的表现如何?请按照以下简单步骤提交您的模型:
准备您的模型:确保您的模型可在 Hugging Face 上获取,并且支持阿拉伯语任务。
通过排行榜提交部分提交:
- 导航到 ILMAAM 的 Hugging Face 存储库上的提交页面。
- 提供您的模型的名称、精度、权重类型和其他相关元数据。
评估:提交后,您的模型将自动在 50 个主题上,每个主题 100 个问题上进行评估。结果将显示在 ILMAAM 排行榜上,包括模型的整体准确率表现。
查看结果:评估后,您的模型的结果将在我每 24 小时手动重新启动或您希望在短时间内看到结果时,通过拉取请求显示在排行榜上。
👉 排行榜链接:https://huggingface.co/spaces/Omartificial-Intelligence-Space/Arabic-MMMLU-Leaderborad
引用
如果您在研究中使用此排行榜或 MMMLU 数据集,请引用:
@misc{ILMAAM,
author = {Nacar, Omer},
title = {ILMAAM: Index for Language Models For Arabic Assessment on Multitasks},
year = {2024},
publisher = {Robotics and Internet-of-Things Lab, Prince Sultan University, Riyadh}
}