开放式阿拉伯语LLM排行榜介绍
开放式阿拉伯语LLM排行榜(OALL)旨在满足阿拉伯语处理领域对专业基准日益增长的需求。随着自然语言处理(NLP)领域的发展,重心往往严重偏向英语,导致其他语言的资源严重不足。OALL旨在通过提供一个专门用于评估和比较阿拉伯语大型语言模型(LLM)性能的平台来平衡这一状况,从而促进阿拉伯语NLP的研究和开发。
鉴于OALL直接服务于全球超过3.8亿阿拉伯语使用者,这一举措意义重大。通过提升精确评估和改进阿拉伯语LLM的能力,我们希望OALL能在开发与阿拉伯语、文化和遗产的细微之处高度契合的模型和应用中发挥关键作用。
基准、指标与技术设置
基准数据集
开放式阿拉伯语LLM排行榜(OALL)利用广泛多样的强大数据集,以确保全面的模型评估。
- AlGhafa基准:由TII LLM团队创建,旨在评估模型在阅读理解、情感分析和问答等一系列能力上的表现。最初包含11个原生阿拉伯语数据集,后来又扩展了11个数据集,这些数据集是英语NLP社区中广泛采用的其他基准的翻译版本。
- ACVA和AceGPT基准:包含来自论文“AceGPT,在阿拉伯语中定位大型语言模型”的58个数据集,以及MMLU和EXAMS基准的翻译版本,以拓宽评估范围并涵盖全面的语言任务。这些基准经过精心策划,包含各种子集,精确捕捉阿拉伯语的复杂性和细微之处。
评估指标
鉴于任务的性质,包括多项选择题和是/否问题,排行榜主要使用所有任务的归一化对数似然准确率。选择此指标是因为它能够为不同类型问题的模型性能提供清晰公平的测量。
技术设置
开放式阿拉伯语LLM排行榜(OALL)的技术设置使用
- 受
demo-leaderboard
启发的前端和后端,后端在TII集群上本地运行。 - 使用
lighteval
库运行评估。我们已为将上述阿拉伯语基准集成到lighteval
中做出了重大贡献,以支持社区对阿拉伯语模型进行开箱即用评估(更多详细信息请参阅 GitHub 上的 PR #44 和 PR #95)。
未来方向
我们有许多关于扩展开放式阿拉伯语LLM排行榜范围的想法。计划中包括推出不同类别的额外排行榜,例如一个用于评估检索增强生成(RAG)场景中阿拉伯语LLM的排行榜,以及另一个作为聊天机器人竞技场,根据用户偏好计算不同阿拉伯语聊天机器人的ELO分数。
此外,我们旨在通过开发OpenDolphin基准来扩展我们的基准以涵盖更全面的任务,该基准将包含约50个数据集,并将是Nagoudi等人在题为“Dolphin:一个具有挑战性和多样性的阿拉伯语NLG基准”的论文中完成工作的开放式复制。有兴趣添加其基准或在OpenDolphin项目上合作的人员,请通过讨论选项卡或此电子邮件地址与我们联系。
我们非常欢迎您在这些方面的贡献!我们鼓励社区通过提交模型、提出新基准或参与讨论来做出贡献。我们还鼓励社区利用当前排行榜中的顶级模型,通过微调或任何其他可能帮助您的模型跻身榜首的技术来创建新模型!您将成为下一位阿拉伯语开放模型英雄!
我们希望OALL能鼓励技术进步,并突出阿拉伯语固有的独特语言和文化特征。我们希望我们的技术设置以及部署大型、特定语言排行榜的经验教训能对其他代表性不足语言的类似倡议有所帮助。这种关注将有助于弥合传统上由以英语为中心模型主导的资源和研究差距,通过更具多样性和包容性的工具丰富全球NLP格局,这对于人工智能技术日益融入全球日常生活至关重要。
提交您的模型!
模型提交流程
为确保评估过程顺利进行,参与者在向开放式阿拉伯语LLM排行榜提交模型时必须遵守特定准则。
确保模型精度一致性: 提交模型的精度与原始模型一致至关重要。精度差异可能导致模型被评估,但无法在排行榜上正确显示。
提交前检查
加载模型和分词器: 确认您的模型和分词器可以使用 AutoClasses 成功加载。使用以下命令:
from transformers import AutoConfig, AutoModel, AutoTokenizer config = AutoConfig.from_pretrained("your model name", revision=revision) model = AutoModel.from_pretrained("your model name", revision=revision) tokenizer = AutoTokenizer.from_pretrained("your model name", revision=revision)
如果遇到错误,请根据错误信息进行解决,以确保您的模型已正确上传。
模型可见性: 确保您的模型设置为公开可见。此外,请注意,如果您的模型需要
use_remote_code=True
,此功能目前不受支持,但正在开发中。
将模型权重转换为Safetensors
- 将模型权重转换为safetensors,这是一种更安全、更快速的权重加载和使用格式。此转换还使得模型参数计数能够包含在
Extended Viewer
中。
- 将模型权重转换为safetensors,这是一种更安全、更快速的权重加载和使用格式。此转换还使得模型参数计数能够包含在
许可证和模型卡
- 开放许可: 验证您的模型是否为开放许可。此排行榜旨在促进开放LLM的可访问性,以确保其广泛可用性。
- 完整模型卡: 填写详细的模型卡信息。这些数据将自动提取并与您的模型一起显示在排行榜上。
模型失败情况
如果您的模型显示在“失败”类别中,则表示执行已停止。请回顾上面列出的步骤,以排除故障并解决任何问题。此外,请在本地使用此脚本测试您的模型,以在重新提交之前确认其功能。
致谢
我们感谢所有贡献者、合作伙伴和赞助商,特别是技术创新研究院(TII)和Hugging Face对本项目的巨大支持。TII慷慨提供了必要的计算资源,符合他们支持社区驱动项目和推进阿拉伯语NLP领域开放科学的承诺,而Hugging Face则协助了他们新评估框架和排行榜模板的集成和定制。
我们还要感谢Upstage在开放式韩语LLM排行榜方面所做的工作,该排行榜为我们的努力提供了宝贵的参考和灵感来源。他们的开创性贡献在指导我们开发全面包容的阿拉伯语LLM排行榜方面发挥了关键作用。
引文与参考文献
@misc{OALL,
author = {El Filali, Ali and Alobeidli, Hamza and Fourrier, Clémentine and Boussaha, Basma El Amel and Cojocaru, Ruxandra and Habib, Nathan and Hacid, Hakim},
title = {Open Arabic LLM Leaderboard},
year = {2024},
publisher = {OALL},
howpublished = "\url{https://huggingface.co/spaces/OALL/Open-Arabic-LLM-Leaderboard}"
}
@inproceedings{almazrouei-etal-2023-alghafa,
title = "{A}l{G}hafa Evaluation Benchmark for {A}rabic Language Models",
author = "Almazrouei, Ebtesam and
Cojocaru, Ruxandra and
Baldo, Michele and
Malartic, Quentin and
Alobeidli, Hamza and
Mazzotta, Daniele and
Penedo, Guilherme and
Campesan, Giulia and
Farooq, Mugariya and
Alhammadi, Maitha and
Launay, Julien and
Noune, Badreddine",
editor = "Sawaf, Hassan and
El-Beltagy, Samhaa and
Zaghouani, Wajdi and
Magdy, Walid and
Abdelali, Ahmed and
Tomeh, Nadi and
Abu Farha, Ibrahim and
Habash, Nizar and
Khalifa, Salam and
Keleg, Amr and
Haddad, Hatem and
Zitouni, Imed and
Mrini, Khalil and
Almatham, Rawan",
booktitle = "Proceedings of ArabicNLP 2023",
month = dec,
year = "2023",
address = "Singapore (Hybrid)",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2023.arabicnlp-1.21",
doi = "10.18653/v1/2023.arabicnlp-1.21",
pages = "244--275",
abstract = "Recent advances in the space of Arabic large language models have opened up a wealth of potential practical applications. From optimal training strategies, large scale data acquisition and continuously increasing NLP resources, the Arabic LLM landscape has improved in a very short span of time, despite being plagued by training data scarcity and limited evaluation resources compared to English. In line with contributing towards this ever-growing field, we introduce AlGhafa, a new multiple-choice evaluation benchmark for Arabic LLMs. For showcasing purposes, we train a new suite of models, including a 14 billion parameter model, the largest monolingual Arabic decoder-only model to date. We use a collection of publicly available datasets, as well as a newly introduced HandMade dataset consisting of 8 billion tokens. Finally, we explore the quantitative and qualitative toxicity of several Arabic models, comparing our models to existing public Arabic LLMs.",
}
@misc{huang2023acegpt,
title={AceGPT, Localizing Large Language Models in Arabic},
author={Huang Huang and Fei Yu and Jianqing Zhu and Xuening Sun and Hao Cheng and Dingjie Song and Zhihong Chen and Abdulmohsen Alharthi and Bang An and Ziche Liu and Zhiyi Zhang and Junying Chen and Jianquan Li and Benyou Wang and Lian Zhang and Ruoyu Sun and Xiang Wan and Haizhou Li and Jinchao Xu},
year={2023},
eprint={2309.12053},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
@misc{lighteval,
author = {Fourrier, Clémentine and Habib, Nathan and Wolf, Thomas and Tunstall, Lewis},
title = {LightEval: A lightweight framework for LLM evaluation},
year = {2023},
version = {0.3.0},
url = {https://github.com/huggingface/lighteval}
}