阿拉伯语排行榜:引入阿拉伯语指令遵循,更新AraGen等等

发布于2025年4月8日
在 GitHub 上更新

在Inception,我们一直致力于加强阿拉伯语语境下的AI模型评估。此前,我们推出了**AraGen**,这是首批生成式阿拉伯语排行榜之一,作为评估阿拉伯语大型语言模型(LLM)生成任务的基准。

作为我们持续努力的一部分,我们很高兴分享以下更新:

  • **阿拉伯语排行榜空间**,与**穆罕默德·本·扎耶德人工智能大学(MBZUAI)**合作推出,旨在将阿拉伯语AI评估整合到一个地方。该平台目前支持**AraGen-03-25**和**阿拉伯语指令遵循**,并计划扩展到涵盖各种模态的阿拉伯语AI模型排行榜。
  • **AraGen 03-25版本**,包含改进和更新的基准。
  • **指令遵循排行榜**,由**阿拉伯语 IFEval 基准**提供支持,这是首个公开可用的用于评估阿拉伯语指令遵循能力的基准。

以下部分提供了这些更新的详细信息。

阿拉伯语排行榜空间

**阿拉伯语排行榜**是一个全面统一的阿拉伯语评估和任务空间。它旨在作为涵盖各种模态模型评估的中心枢纽。目前,它拥有AraGen-03-25和阿拉伯语指令遵循两个实时排行榜。我们计划将该空间扩展到更多的阿拉伯语AI模型排行榜和任务,涵盖各种模态。

我们邀请有兴趣的贡献者通过社区选项卡或直接通过电子邮件与我们联系,讨论如何将他们的工作/排行榜作为附加选项卡集成到此空间中。

AraGen排行榜的最新更新

2024年12月,我们推出了AraGen基准作为AraGen排行榜的基础。该排行榜的一个关键特点是其动态性,评估数据集将保持私有(盲测)三个月,以确保公平和公正的评估。秉持相同的理念,我们正在公开发布**AraGen-12-24基准**,以及所有由**Claude-3.5-Sonnet**根据**3C3H准则**评估的模型响应。

通过分享此基准和模型响应,我们旨在鼓励社区对其进行审查,发现我们可能遗漏的任何意外行为,并帮助我们完善评估框架。

AraGen-03-25版本

在最新的AraGen版本中,我们将数据集从之前的279对问题和答案扩展到340对。分布情况相对相似:

  • **问答:** 约200对
  • **推理:** 70对
  • **安全问题:** 40对
  • **正字法和语法分析:** 30对

这种分配反映了问答作为任何语言模型/聊天机器人/AI助手主要用例的首要关注点,同时仍然解决了其他评估领域,特别是考虑到在阿拉伯语语法和正字法中生成具有挑战性的查询的复杂性。

Tasks Distribution (%)

此外,我们还完善了**评判系统提示**,以提高清晰度,即使对于较小/较弱的评判模型也是如此。

动态评估与排名分析

在引入动态评估周期时,保持基准和评估流程的一致性和可靠性至关重要。为确保这一点,我们分析了前10个模型在不同数据集版本和系统提示配置下的排名变化。

排名变化分析

我们分析了模型在两种评估场景下的表现:

  • 使用最新AraGen版本(**AraGen-03-25**)比较了之前的系统提示(SP1)与当前的系统提示(SP2)。
  • 评估了更新数据集和评判系统提示的影响。

总体排名保持稳定,表现最佳的模型(*o1-2024-12-17*)始终保持领先地位。值得注意的是,我们观察到两个Claude模型之间排名互换,这凸显了我们评估方法的敏感性,特别是考虑到它们最初得分接近。

排名唯一显著的变化是*gpt-4o-2024-08-06*模型,其性能在更新数据集和提示后显著提高。这种突然的跳跃目前正在我们持续的基准设计研究中进行调查。

仅由于系统提示的变化,未发生重大排名波动,这表明只要使用相同的评判模型(*claude-3.5-sonnet*),就能保持良好的可重复性。然而,我们预计使用更小或更弱的模型作为评判时可能会出现潜在的波动,在这种情况下,采用第二个系统提示(SP2)可能会增强一致性。

总而言之,*o1-2024-12-17*模型在更具挑战性的更新基准下,其得分从82.67%降至70.25%,但其稳健且持续领先的表现继续强化了其在阿拉伯语应用中的可靠性。尽管评估流程的最新更新引入了轻微的排名变动,但整体框架保持稳定,顶部和底部表现者位置一致。许多观察到的排名调整可能反映了由于微小分数差异造成的典型评估误差范围。值得注意的是,排名第二至第五的模型的得分,此前介于70%-78%之间,现在介于51%-57%之间。这突显了更新后的AraGen数据集提出了一个显著更困难的基准,与推理模型的持续进步保持一致。尽管绝对分数发生了这些变化,但排行榜位置基本保持一致,这令人鼓舞,突显了未来评估方法的稳健性。

更详细的分数
组合1:系统提示效果(AraGen-03-25 SP1 vs. AraGen-03-25 SP2)

表1. AraGen-03-25(SP1)排名

排序 模型名称 3C3H分数 正确性 完整性 简洁性 帮助性 诚实性 无害性
1 o1-2024-12-17 69.49% 74.90% 73.04% 47.11% 72.40% 74.56% 74.90%
2 gpt-4o-2024-08-06 56.10% 61.96% 58.92% 34.22% 58.80% 60.81% 61.89%
3 claude-3-5-sonnet-20241022 54.29% 59.31% 57.65% 34.31% 57.13% 58.01% 59.31%
4 claude-3-7-sonnet-20250219 53.21% 59.31% 56.76% 28.53% 56.86% 58.53% 59.24%
5 o3-mini-2025-01-31 51.65% 56.67% 54.31% 31.74% 54.46% 56.10% 56.59%
6 deepseek-chat 47.82% 54.31% 52.35% 20.56% 51.94% 53.46% 54.31%
7 claude-3-5-haiku-20241022 43.62% 48.14% 44.61% 28.92% 45.37% 46.57% 48.14%
8 o1-mini-2024-09-12 43.60% 47.55% 47.06% 26.54% 46.35% 46.57% 47.55%
9 Qwen/Qwen2.5-72B-Instruct 42.18% 48.63% 47.55% 16.03% 44.93% 47.38% 48.55%
10 gpt-4o-mini-2024-07-18 40.96% 45.10% 44.02% 24.24% 43.19% 44.14% 45.10%

表2. AraGen-03-25(SP2)排名

排序 模型名称 3C3H分数 正确性 完整性 简洁性 帮助性 诚实性 无害性
1 o1-2024-12-17 70.25% 75.88% 70.98% 51.25% 72.55% 75.25% 75.59%
2 gpt-4o-2024-08-06 57.38% 63.14% 56.67% 39.95% 59.66% 61.79% 63.06%
3 claude-3-7-sonnet-20250219 56.54% 62.25% 58.53% 34.49% 60.39% 61.40% 62.18%
4 claude-3-5-sonnet-20241022 55.60% 60.49% 56.67% 39.14% 58.60% 58.50% 60.20%
5 o3-mini-2025-01-31 51.63% 56.08% 52.35% 36.72% 53.53% 55.10% 56.00%
6 deepseek-chat 51.00% 57.55% 53.92% 25.61% 54.95% 56.42% 57.55%
7 claude-3-5-haiku-20241022 44.79% 48.92% 44.51% 32.40% 46.67% 47.38% 48.85%
8 o1-mini-2024-09-12 43.78% 47.55% 46.76% 28.04% 46.27% 46.67% 47.40%
9 Qwen/Qwen2.5-72B-Instruct 43.09% 48.82% 47.55% 19.73% 46.59% 47.11% 48.75%
10 gpt-4o-mini-2024-07-18 40.62% 45.10% 40.88% 27.60% 42.06% 43.58% 44.51%
组合2:数据集和提示更新效果(AraGen-12-24 SP1(旧)vs. AraGen-03-25 SP2(新))

表3. AraGen-12-24(SP1)排名

排序 模型名称 3C3H分数 正确性 完整性 简洁性 帮助性 诚实性 无害性
1 o1-2024-12-17 82.67% 92.71% 92.47% 34.65% 91.19% 92.26% 92.71%
2 claude-3-5-sonnet-20241022 78.74% 88.31% 87.81% 33.27% 86.97% 87.78% 88.31%
3 claude-3-7-sonnet-20250219 77.71% 87.89% 87.77% 29.20% 86.27% 87.26% 87.89%
4 gpt-4o-2024-08-06 73.89% 83.75% 82.91% 28.94% 80.99% 83.00% 83.75%
5 deepseek-chat 71.28% 81.89% 81.89% 21.13% 79.53% 81.32% 81.89%
6 o3-mini-2025-01-31 70.91% 80.29% 79.21% 27.33% 78.38% 79.99% 80.29%
7 claude-3-5-haiku-20241022 66.40% 74.43% 73.36% 30.56% 72.34% 73.30% 74.43%
8 o1-mini-2024-09-12 64.95% 74.22% 74.22% 21.46% 72.24% 73.32% 74.22%
9 gpt-4o-mini-2024-07-18 63.40% 72.10% 71.38% 22.98% 70.41% 71.41% 72.10%
10 Qwen/Qwen2.5-72B-Instruct 62.58% 71.92% 71.80% 19.06% 69.86% 70.94% 71.92%

表4. AraGen-03-25(SP2)排名

排序 模型名称 3C3H分数 正确性 完整性 简洁性 帮助性 诚实性 无害性
1 o1-2024-12-17 70.25% 75.88% 70.98% 51.25% 72.55% 75.25% 75.59%
2 gpt-4o-2024-08-06 57.38% 63.14% 56.67% 39.95% 59.66% 61.79% 63.06%
3 claude-3-7-sonnet-20250219 56.54% 62.25% 58.53% 34.49% 60.39% 61.40% 62.18%
4 claude-3-5-sonnet-20241022 55.60% 60.49% 56.67% 39.14% 58.60% 58.50% 60.20%
5 o3-mini-2025-01-31 51.63% 56.08% 52.35% 36.72% 53.53% 55.10% 56.00%
6 deepseek-chat 51.00% 57.55% 53.92% 25.61% 54.95% 56.42% 57.55%
7 claude-3-5-haiku-20241022 44.79% 48.92% 44.51% 32.40% 46.67% 47.38% 48.85%
8 o1-mini-2024-09-12 43.78% 47.55% 46.76% 28.04% 46.27% 46.67% 47.40%
9 Qwen/Qwen2.5-72B-Instruct 43.09% 48.82% 47.55% 19.73% 46.59% 47.11% 48.75%
10 gpt-4o-mini-2024-07-18 40.62% 45.10% 40.88% 27.60% 42.06% 43.58% 44.51%

3C3H分析

作为我们12月发布的一部分,我们引入了3C3H作为评估模型聊天能力的新衡量标准,旨在评估大型语言模型(LLM)答案的事实性和可用性。在过去的三个月里,我们观察到了一些有趣的发现,我们将在本节中分享。

一个新兴的趋势是,各个维度之间几乎完美相关。在大多数情况下,正确答案被评为高度有用且无害,但大多数模型未能保持这种与简洁性维度的相关性。这通常反映了我们当前训练这些模型的方式,即更冗长的答案通常被认为更有帮助。这一趋势最近引起了研究界的关注,例如OpenAI发布了GPT-4.5模型。根据其用例部分,GPT-4.5的答案比GPT-4更简洁,同时仍然同样有用。

HeatMap for o1-2024-12-17

本次分析中脱颖而出的模型是“silma-ai/SILMA-9B-Instruct-v1.0”,与其他开放权重模型(即使是更大的模型)相比,它表现出更高的简洁性得分。然而,与它的基础模型“google/gemma-2-9b-it”相比,这种简洁性的提高是以牺牲实用性和其他维度为代价的。我们相信,这种分析以及对3C3H的优化,将使社区能够通过精心策划的数据集开发出更好的模型,同时保持所有维度之间的相关性。

SILMA-9B-Instruct-v1.0 VS Gemma-2-9b-it HeatMaps

这是一项持续的努力,旨在更好地理解这些维度如何相互关联,以及各种场景和训练配方如何影响这种关系。下面,我们提供了一个空间,您可以为您选择的任何模型组合生成热图。我们希望社区发现它有助于发现我们可能没有注意到的其他趋势。最终,我们希望这个工具能促进更多关于评估和3C3H的讨论,并作为他人工作的资源。

我们认为这项分析的一个局限性是归零规则,即如果答案不正确,我们不会评估其他维度。未来,我们计划进一步研究,即使答案不正确,它是否仍然有用,以及如果答案不正确,简洁性和无害性等维度如何纳入此评估。

指令遵循排行榜

什么是指令遵循基准?

大型语言模型(LLM)的核心能力之一是理解和遵循人类指令。这项技能对于构建可靠的聊天机器人、虚拟助手和能够按照用户要求行事的AI系统至关重要。如果缺乏强大的指令遵循能力,模型可能会生成正确的信息,但格式错误、忽略用户指定的约束或生成不必要的内容。指令遵循基准是衡量模型指令依从性并公平比较模型以推动改进的标准化、客观方式。

数据集:阿拉伯语 IFEval

我们的工作灵感来自IFEval数据集。IFEval最初由Google推出,提供了一个结构化的基准,旨在评估LLM遵循可验证指令的能力。它包含带有特定、客观可衡量命令的提示,例如“使用三个项目符号”、“包含‘创新’一词两次”或“将答案限制在100字以内”。英语IFEval数据集包含约500个提示,涵盖25种不同类型的此类可验证指令。IFEval中的评估通过Python函数自动验证指令是否得到遵循,从而避免了对人工评估器或另一个AI评判的需求。这使得评估**可复现且无偏见**。虽然IFEval已成为评估LLM英语响应的标准,但阿拉伯语仍缺乏类似详细和结构化的资源。

我们的**阿拉伯语IFEval**数据集的构建始于仔细改编约300个来自原始英语IFEval的提示。这并非简单的逐字翻译;相反,我们深思熟虑地调整了提示,以清晰地反映阿拉伯语的语言细微差别和文化语境。在阿拉伯语中意义不大的指令,例如涉及英语特定元音限制的指令,要么被改编成等效的阿拉伯语语言挑战,要么被完全省略。特定于英语语境的文化参考被替换为具有文化关联性或阿拉伯语等效的参考,以保持语境清晰度。此外,我们从头开始创建了独特的阿拉伯语特定样本,专门设计用于强调独特的阿拉伯语语音、正字法特征和形态,例如仔细使用变音符号(tashkīl),避免某些字母的语音限制(例如,在不使用字母Alef (ا)的情况下书写),以及利用基于词根的形态来挑战模型的词汇选择能力。所有提示都经过阿拉伯语语言学家和领域专家的严格验证,他们确保了每条指令的语法准确性、文化适宜性和明确性。

**阿拉伯语 IFEval**数据集向研究社区公开提供,以供使用、测试和贡献。它可在Huggingface的inceptionai/Arabic_IFEval上获取。

样本一:阿拉伯语 IFEval

提示 (阿拉伯语)
فسر كيف يمكن للتقنيات الحديثة مثل الذكاء الاصطناعي أن تسهم في الحفاظ على الأدب العربي، مع تضمين 12 كلمة تنتهي بأحد الحروف الرافسة (د، ذ، أ، ر، ز، و)، وأن تكون الإجابة مكتوبة بأسلوب موجز لا يتجاوز 120 كلمة. يجب أن لا تحتوي إجابتك على أي فواصل。

**提示翻译(英文):** 解释现代技术,如人工智能,如何有助于保护阿拉伯文学。你的答案应包含至少12个以特定阿拉伯字母(د、ذ、أ、ر、ز、و)之一结尾的单词,应简洁,且不超过120个单词。你的回答不得包含任何逗号。

遵循的指令

  • **字母频率限制:** 包含至少12个以字母(د、ذ、أ、ر、ز、و)之一结尾的单词。
  • **标点符号限制:** 不使用逗号。
  • **长度限制:** 简洁书写,不超过120字。

JSON 格式示例

{
  "key": 4767,
  "prompt": "فسر كيف يمكن للتقنيات الحديثة مثل الذكاء الاصطناعي أن تسهم في الحفاظ على الأدب العربي، مع تضمين 12 كلمة تنتهي بأحد الحروف الرافسة (د، ذ، أ، ر، ز، و)، وأن تكون الإجابة مكتوبة بأسلوب موجز لا يتجاوز 120 كلمة. يجب أن لا تحتوي إجابتك على أي فواصل.",
  "instruction_id_list": [
    "keywords:letter_list_freq",
    "punctuation:no_comma",
    "length_constraints:number_words"
  ],
  "kwargs": [
    {
      "letters": ["د", "ذ", "أ", "ر", "ز", "و"],
      "frequency": 12,
      "relation": "at least",
      "position": "end"
    },
    {},
    {
      "relation": "less than",
      "num_words": 500
    }
  ],
  "lang": ["ar"]
}
样本二:阿拉伯语 IFEval

提示 (阿拉伯语): اكتب قصة قصيرة عن الرقم 600، على أن يكتب الرقم في القصة بالكلمات وبكل الصيغ المفقطة الممكنة له على الأقل مرة (ستة مائة - ست مئة - ستمئة - ستمائة).

提示翻译(英文)
写一个关于数字600的短篇故事。在故事中,数字应至少一次以所有可能的阿拉伯语书写形式拼写出来("ستة مائة", "ست مئة", "ستمئة", "ستمائة")。

遵循的指令
你的回答必须明确包含以下阿拉伯语拼写,每种至少一次

  • ستة
  • مائة
  • ست
  • مئة
  • ستمئة
  • ستمائة

JSON 格式示例

{
  "key": 4768,
  "prompt": "اكتب قصة قصيرة عن الرقم 600، على أن يكتب الرقم في القصة بالكلمات وبكل الصيغ المفقطة الممكنة له على الأقل مرة (ستة مائة - ست مئة - ستمئة - ستمائة).",
  "instruction_id_list": [
    "keywords:frequency",
    "keywords:frequency",
    "keywords:frequency",
    "keywords:frequency",
    "keywords:frequency",
    "keywords:frequency"
  ],
  "kwargs": [
    {"relation": "at least", "keyword": "ستة", "frequency": 1},
    {"relation": "at least", "keyword": "مائة", "frequency": 1},
    {"relation": "at least", "keyword": "ست", "frequency": 1},
    {"relation": "at least", "keyword": "مئة", "frequency": 1},
    {"relation": "at least", "keyword": "ستمئة", "frequency": 1},
    {"relation": "at least", "keyword": "ستمائة", "frequency": 1}
  ],
  "lang": ["ar"]
}

评估方法与指标

为了评估这些模型,我们采用了结合显式和隐式评估技术的综合方法。显式评估涉及使用自动化脚本来评估指令是否严格遵循,重点关注正确格式和特定词语使用等要素。隐式评估则处理更细微的语言期望,例如保持预期的响应语言和避免重复模式。

此外,我们利用了Google在IFEval框架中引入的评分指标,并将这些指标应用于提示级别和指令级别的粒度。这些指标均使用严格的准确性标准进行衡量,要求遵循所提供的指令。提示级别得分明显更难,它反映了用户的观点,即“我是否得到了我请求的一切?”如果一个提示包含多个要求,未能满足任何一个要求都意味着用户的请求未完全满足。相比之下,指令级别得分则更宽松,允许我们评估部分依从性。

在我们的分析中,我们将强调提示级别的严格准确性,因为它提供了对模型指令遵循能力最严格的评估。

结果与分析

我们在一系列广泛的LLM上进行了评估,包括英语IFEval基准和我们新推出的阿拉伯语IFEval。这涵盖了闭源模型(如OpenAI的GPT系列和Anthropic的Claude模型)以及开源替代品(包括Jais系列、Meta的LLaMA-2变体和各种开放双语模型)。下面,我们总结了这些模型中具有代表性的子集的结果,比较了它们在英语和阿拉伯语IFEval上提示级别的准确性。准确性以严格和宽松标准报告,数值表示成功完成提示的百分比。

指令遵循排行榜示例

表5. 指令遵循基准样本分数

排序 模型名称 阿拉伯语提示级别 (%) 英语提示级别 (%)
1 claude-3.5-sonnet 72.5 84.7
2 gpt-4o-2024-08-06 70.8 79.4
3 gpt-4o-mini-2024-07-18 68.1 76.9
4 claude-3.5-haiku 67.1 78.2
5 Qwen/Qwen2.5-72B-Instruct 67.3 83.5
6 Qwen/Qwen2.5-32B-Instruct 60.4 77.6
7 google/gemma-2-27b-it 59.4 76.1
8 CohereForAI/aya-expanse-32b 56.7 65.1
9 CohereForAI/c4ai-command-r7b-12-2024 56.4 74.9
10 meta-llama/Llama-3.3-70B-Instruct 58.2 88.2

即将开展的工作

作为我们工作的一部分,随着我们内部工作的进展,我们将不断向阿拉伯语排行榜空间添加和更新更多的排行榜。在即将发布的版本中,我们预计将发布一个多任务视觉问答排行榜,该排行榜将由我们与MBZUAI的合作者提供的camel-bench和kitab提供支持。

社区

文章易于理解。感谢您的努力。

注册登录 发表评论