Darija 聊天机器人竞技场:让大型语言模型在摩洛哥方言中一较高下
空间链接:https://huggingface.co/spaces/atlasia/darija-chatbot-arena
摘要
我们推出 Darija 聊天机器人竞技场,这是一个创新平台,旨在促进大型语言模型 (LLM) 在 Darija(摩洛哥阿拉伯语方言)中针对各种提示的响应进行比较。我们的平台旨在全面评估 LLM 在理解和生成 Darija 响应方面的能力,Darija 是一种在人工智能领域中代表性不足的语言。
图 1:竞技场对战示例。我们注意到 LLM 在某些领域(如习语)表现不佳。
在这篇博文中,我们展示了我们的初步发现,其中包括模型性能分析和使用 Elo 评分系统排名的不断变化的排行榜。该评分系统因其根据相对表现对竞争对手进行排名的有效性而广受认可,并提供了一个客观的衡量标准,可以根据用户反馈比较 LLM。我们的目标是促进协作和参与,同时推动人工智能系统的发展,以更好地服务摩洛哥社区及其他地区。
我们邀请更广泛的摩洛哥社区,包括研究人员、语言爱好者和母语人士,积极参与,对精选提示的模型响应进行评分。您的贡献将有助于完善排名,并为不同模型在处理 Darija 独特语言细微差别方面的优势和劣势提供宝贵的见解。
图 2:对战排行榜。
引言
大型语言模型 (LLM) 彻底改变了自然语言处理,使其在多种语言和领域中展现出令人印象深刻的能力。然而,大多数最先进的 LLM 在处理代表性不足的语言和方言(例如摩洛哥阿拉伯语,俗称 Darija)时仍面临挑战。为了弥补这一空白,我们推出了 Darija 聊天机器人竞技场,这是一项社区驱动的倡议,旨在评估和比较领先 LLM 在 Darija 上的表现。
为什么选择 Darija?
Darija 是一种摩洛哥独有的阿拉伯语口语变体。尽管它以阿拉伯语、柏柏尔语、法语和西班牙语的丰富融合为特征,但在 NLP 数据集和基准测试中却缺乏重要的代表性,这使得它对于 LLM 来说是一种难以有效处理的语言。
目标
本项目的主要目标是
- 基准测试性能:评估不同 LLM 在理解和生成 Darija 文本方面的表现。
- 促进研究:鼓励开发特定于 Darija 的模型和数据集。
- 社区参与:让母语人士和 NLP 爱好者参与微调和反馈收集。
工作原理?
受类似项目的启发,Darija 聊天机器人竞技场提供了一个平台,用户可以在其中与各种 LLM 互动,以比较它们对 Darija 提示的响应。用户可以:
1- 选择提示:从近 300 个短语中选择一个随机提示(通过掷骰子),并接收来自两个竞争 LLM 的响应。
2- 对响应进行投票:选择最准确、最流畅且最符合文化的响应。
3- 分析结果:在排行榜上查看汇总结果,以识别最有效的模型。
我们目前支持来自领先机构的模型,包括:
- Google:Gemini-1.5
- Meta:Llama-3.3-70B-Instruct / Llama-3.1-Nemotron / Llama-3.1-405B / Llama-3-8B-Instruct
- Anthropic:Claude-3.5-Sonnet
- OpenAI:ChatGPT-4o-Latest / GPT-4o / GPT-4o-Mini
- 阿里巴巴:Qwen-2.5-72B-Instruct / QwQ-32B-Preview
- xAI:Grok-beta
- Cohere:C4AI-Command-R-Plus
- Deepseek:Deepseek-V3
其他模型也将在竞技场的未来版本中添加。
提示
图 3:每类提示数量的直方图。
直方图突出显示了数据集中不同类别提示的分布。这对于评估语言模型在各种摩洛哥阿拉伯语对话输入上的表现很有用。我们选择将“常识”类别作为主要类别,以评估每个模型对 Darija 语言的广泛理解能力,并指示它是否学习了与摩洛哥日常生活相关的常见事实、概念和语言约定。
“习语”类别对于评估模型是否适用于真实世界的摩洛哥阿拉伯语应用程序至关重要。众所周知,摩洛哥阿拉伯语富含习语,模型理解和生成常见摩洛哥习语的能力是其文化和语言能力的关键指标。在这些提示上的强大表现将表明模型已经内化了摩洛哥阿拉伯语习语的细微的、依赖上下文的含义。较弱的结果可能表明模型在掌握语言这一重要方面存在差距。分析模型处理摩洛哥阿拉伯语习语的方式可以为模型在真实世界摩洛哥阿拉伯语应用程序中的整体能力提供宝贵的见解,从而使其能够进行自然、流畅的对话。
“文化知识”、“宗教”和“地理”类别也至关重要,因为它们表明模型对摩洛哥文化价值观、历史和区域知识的熟悉程度。这些提示类型测试模型对摩洛哥特有的文化参考和地理信息的知识。
此外,由于摩洛哥以其美味佳肴和世界一流的运动队而闻名,因此有必要评估模型在这些领域的表现,因为它们塑造了摩洛哥的身份。这就是为什么我们包含了来自“美食”和“体育”类别的一些样本。请注意,我们的运动员在世界锦标赛中表现出色,并享用美味健康的餐点。
最后,像“长句”、“幽默”和“混合语言”这样的类别测试了模型处理摩洛哥阿拉伯语中常见的复杂语言现象的能力。在此处的强大结果将表明模型已内化了摩洛哥特定的句法、习语和语码转换模式。对这组不同提示类别的模型性能进行全面分析,可以为模型在真实世界摩洛哥阿拉伯语应用程序中的适用性提供丰富的见解。
分析排行榜
Elo 评分
我们根据模型的 Elo 评分对其进行排名,Elo 评分是此种对战中广泛使用的代理排名指标。
图 4:竞技场中每个模型的性能,以 Elo 评分计算。
此排行榜根据我们选定的 AI 模型在理解上述摩洛哥阿拉伯语提示以及生成准确响应方面的表现进行排名。每个模型的 Elo 评分反映了其在面对面比较中持续超越其他模型的能力,分数越高表示胜率越高。ChatGPT-4.0-Latest 领先,展现出在理解和生成 Darija 响应方面的卓越能力,紧随其后的是 Gemini-1.5-Pro 和 GPT-4.0。Claude-3.5-Sonnet 和 GPT-4.0-Mini 也表现出色,位居高位。Llama-3.1-Nemotron 和 Grok-beta 等中端模型展现出具有竞争力的能力,而 Meta-Llama-3.8B Instruct 和 QWQ-32B Preview 等模型则排名较低。
胜率矩阵
我们在此展示了一些顶级 Darija 模型的胜率矩阵,以说明它们之间如何相互竞争。
图 5:6 个精选模型(投票数最多)的模型间胜率矩阵。
这个胜率矩阵揭示了模型性能中有趣的动态,展示了不同模型在面对面比较中的表现。ChatGPT-4.0-Latest 表现最为出色,几乎在所有对战中都以高胜率持续超越其他模型。Claude-3.5-Sonnet 和 Gemini-1.5-Pro 等模型表现出竞争力,但在面对更强的模型时相对较弱,表明在某些领域仍有改进空间。另一方面,Grok-beta 和 Llama-3.1-405B 等模型在大多数竞争对手面前的胜率显著较低,表明它们在所测试的场景中能力较弱。这些结果为模型的相对优势提供了宝贵的见解,有助于确定哪些模型最适合特定应用,或者哪些模型需要进一步完善。
结论与未来工作
总而言之,我们的 Darija 聊天机器人竞技场旨在在缺乏特定基准的情况下,根据人类反馈评估不同最先进模型的性能。总的来说,它表明很少有 LLM 能够理解复杂的摩洛哥阿拉伯语句子和查询,而其余模型则需要预先进行微调。我们未来几天的目标是将更多模型添加到竞技场中,例如 Atlas-Chat、Fanar...,并包含更多提示,使评估更加多样化,尽可能多地触及摩洛哥文化的各个方面。
致谢
我们感谢所有项目合作者:Aymane El Firdoussi、Abdeljalil El Majjodi、Ihssane Nedjaoui、Zaid Chiech、Miloud Belarebia、Yousef Khoubrane、Ali El Filali、Badr Barbara、Hafsaa Ouifak、Imane Momayiz、Mounir Afifi、Ouael Ettouileb、Oumnia Ennaji、Nouamane Tazi、Khaoula Alaoui Belghiti、Oumayma Essarhi 和 Adnan Anouzla。
加入我们
- 网站: https://www.atlasia.ma/
- HuggingFace 社区: https://huggingface.co/atlasia
引用
@article{atlasia2025darija-chatbot-arena,
title={Darija Chatbot Arena: Making LLMs Compete in the Moroccan Dialect},
author={Aymane El Firdoussi and Abdeljalil El Majjodi and Ihssane Nedjaoui},
year={2025},
url={https://huggingface.co/blog/atlasia/darija-chatbot-arena}
organization={AtlasIA}
}
附录
图 6:完整胜率矩阵。