ABBL:下一代LLM基准和排行榜,用于评估阿拉伯语模型

社区文章 发布于2025年5月18日

image/png

阿拉伯语通用基准和排行榜(ABBL)SILMA.AI推出的一个先进的LLM排行榜和基准,提供创新的可视化、分析功能、模型技能细分、速度比较以及污染检测机制。

ABBL为社区提供了前所未有的能力,可以研究阿拉伯语模型的功能,并自信地为正确的任务选择正确的模型。

概述

  • 经人工验证、紧凑型数据集,仅包含470个问题,涵盖22项阿拉伯语技能,取样自64个多样化数据集
  • 一种新的评估方法,结合了定制的手动规则和LLM作为评判者的变体,针对特定问题类型进行了调整
  • 用于分析和可视化比较模型的独特功能
  • 新颖的污染检测机制
  • 针对特定大小范围内的模型设置子排行榜,以确保更准确和公平的比较
  • 将模型速度指标与模型性能指标一同纳入考量

排行榜: https://huggingface.co/spaces/silma-ai/Arabic-LLM-Broad-Leaderboard

基准: https://huggingface.co/datasets/silma-ai/arabic-broad-benchmark


为什么要再建一个基准?

无法衡量就无法改进

在SILMA.AI,我们的目标是通过基于开源模型而不是重新发明轮子来构建最先进的阿拉伯语语言模型。

为此,我们需要评估所有技能的基础模型,并为正确的任务找到正确的模型。然而,我们最近发现所有当前的数据集和基准都未能达到我们对准确评估模型的标准,以至于我们无法依赖其结果来做出业务决策。

我们旨在解决现有基准中的问题

  • 现有的阿拉伯语基准测试狭隘地关注有限的技能(最多8种),例如推理和问答,而没有完全涵盖阿拉伯语的独特特征,例如其丰富的方言种类、复杂的语法、变音符号等。
  • 公开基准容易被污染,因此不可靠
  • 私有基准(封闭数据集)对社区不可访问,与公共基准相比缺乏同等水平的信任
  • 目前的基准测试要么侧重于多项选择题,要么侧重于生成式问题,而不是两者兼顾
  • 一些基准仍然存在数据质量问题,这降低了结果的可信度
  • 可用的基准测试运行起来资源和时间密集,依赖于沉重的评估框架和开发库,其中一些无法足够快地支持新模型
  • 最后,我们需要能够比较封闭模型和开放模型,并将基准整合到我们的内部管道中

数据集

我们推出了一个紧凑而全面的数据集,包含470个高质量、经过人工验证的问题。这些问题选自64个现有的阿拉伯语基准数据集,其中包括OALL和阿拉伯语排行榜等开创性阿拉伯语基准数据集。

我们的目标是提供对模型整体阿拉伯语性能的广泛评估,而不是仅仅专注于单一任务。

该数据评估了22种技能,重点关注阿拉伯语的特殊性,从方言和变音符号的书写到推理和MMLU。据我们所知,这是阿拉伯语的第一个此类数据集。

image/png

类别统计

类别 计数 百分比
MMLU 121 25.74%
通用知识 63 13.4%
推理与数学 43 9.15%
RAG 问答 41 8.72%
翻译(包括方言) 36 7.66%
信任与安全 30 6.38%
写作(包括方言) 22 4.68%
阅读理解 17 3.62%
阿拉伯语语言与语法 17 3.62%
加注音符 12 2.55%
方言检测 11 2.34%
情感分析 9 1.91%
摘要 8 1.7%
指令遵循 7 1.49%
音译 6 1.28%
意译 6 1.28%
实体抽取 5 1.06%
长语境 4 0.85%
编程 3 0.64%
幻觉 3 0.64%
函数调用 3 0.64%
结构化 3 0.64%

子类别

image/png

问题格式

格式 计数 百分比
多项选择题 229 48.72%
生成 228 48.51%
填空题 8 1.7%
简答题 5 1.06%

数据集生成过程

  • 从64个不同的阿拉伯语基准数据集中抽取数百个问题
  • 使用GPT-4.1和Gemini 2.5进行初步自动质量检查,淘汰了两个模型都无法回答的问题(减少了50%以上)
  • 剩余问题经过人工验证,包括检查、回答和与LLM响应进行交叉参考(进一步减少了20%)
  • 在人工验证过程中对问题进行重新措辞并更新参考答案
  • 这个多阶段过滤过程最终得到了470个高质量问题
  • 最终数据集在基准测试阶段经过了额外的测试和完善

该数据集是我们阿拉伯语通用基准(ABB)的基础。


阿拉伯语通用基准(ABB)

ABB是一个开源基准系统,它利用我们新的综合数据集来评估Hugging Face上的阿拉伯语LLM和API。

方法论

基准脚本采用20多种人工评估规则和定制的“LLM-as-judge”变体的复杂组合,专门针对所评估的每种技能和问题类型进行定制。

示例:为了评估阿拉伯语变音符号的准确性,采用了MANUAL_DIACRITIZATION规则。该方法评估参考文本和生成文本之间在字符级别的差异。此方法取代了依赖LLM作为判断提示的方法,因为LLM在评估此类细微区别方面不可靠。

以下是基准测试期间使用的自定义评分规则列表

评分规则 数量 描述
AUTOMATED_LLM_AS_A_JUDGE_MCQ 218 使用LLM作为多项选择题的判断者进行自动评分。(自定义提示)
AUTOMATED_LLM_AS_A_JUDGE_GENERATION 173 使用LLM作为文本生成任务的判断者进行自动评分。(自定义提示)
MANUAL_ROUGE_SCORE 65 ROUGE(召回率导向的摘要评估替补)得分的人工计算。
MANUAL_METEOR_SCORE 34 METEOR(带有明确排序的翻译评估指标)得分的人工计算。
AUTOMATED_LLM_AS_A_JUDGE_WRITING_DIALECT 30 使用LLM判断器对写作中的方言准确性进行自动评分。(自定义提示)
AUTOMATED_LLM_AS_A_JUDGE_REASONING 21 使用LLM判断器对推理能力进行自动评分。(自定义提示)
MANUAL_WORDS_INTERSECTION 19 人工检查生成文本和参考文本之间的单词交集。
MANUAL_DIACRITIZATION 12 使用Levenshtein距离+其他条件对变音符号准确性进行人工评分
MANUAL_DIALECT_MATCHING 11 人工评分生成方言与目标方言的匹配程度。
MANUAL_RELATIVE_MIN_DISTANCE 6 人工计算基础文本与参考文本之间以及生成文本与参考文本之间距离(Levenshtein)的相对变化
MANUAL_CLOSE_TO_REFERENCE_LENGTH 6 手动检查生成文本长度是否接近参考文本长度。
MANUAL_MIN_DISTANCE 6 人工计算最小编辑距离(Levenshtein)。
MANUAL_IS_VALID_JSON 5 人工检查输出是否为有效的JSON格式。
AUTOMATED_LLM_AS_A_JUDGE_GRAMMAR_IRAB 3 自动LLM作为语法“Irab”的判断者。(自定义提示)
MANUAL_IFEVAL_1 3 基于特定“IFEVAL”标准(版本1)的人工评估。
MANUAL_STRUCTURING_1 3 对每个相关问题的输出结构进行人工评估。
MANUAL_IFEVAL_2 2 基于特定“IFEVAL”标准(版本2)的人工评估。
MANUAL_MRCR_FIRST_LINE_MATCH 2 人工检查生成文本的第一行是否与参考文本匹配,仅检查前100个字符的Levenshtein距离

效率

使用ABB,您可以快速高效地评估模型(参数高达15B),通常在一小时内在一块GPU上完成。

技能细分和速度

完成后,系统会提供详细的技能级别细分,让您清楚了解每个评估模型的优缺点。此外,您还可以获得模型的速度(每秒字数)以及所有模型响应的精美HTML文件,以供进一步分析。

评分是如何进行的?

每个问题都使用手动规则、LLM作为判断者或两者兼顾的方式进行0到10分的评分。最终的基准分数是通过计算所有单独问题分数的平均值得出的。

开放且人人可访问

使用ABB基准评估模型是一个简单的三步过程。详细说明请参阅以下链接

https://huggingface.co/datasets/silma-ai/arabic-broad-benchmark#how-to-use-abb-to-benchmark-a-model

其他功能

此基准允许测试自定义API以及HuggingFace模型。它还支持批量处理以加快评估。此外,该基准现在可以处理<thinking>模型,通过仅提取和评估这些标签后面的文本。


阿拉伯语通用排行榜(ABL)

image/png

ABL通过包含其他排行榜中不常见的创新和独特功能,为阿拉伯语模型评估树立了新标准。

主要创新

  1. 污染检测:一种新颖的污染预防方法,利用专有代码确定模型在训练期间遇到/使用测试数据的可能性。污染分数与模型的输出一起以红色标志显示。

    为了保持排行榜的完整性,我们实施了严格的措施,以避免重复模型评估。此外,组织和账户每月仅限提交一次。

    为了防止优化以降低污染分数,我们已隐藏了算法、阈值以及任何低于该阈值的详细信息。

    此外,任何显示污染证据的模型都会被立即删除并接受进一步调查。作为最终措施,我们已设立禁令机制以防止滥用。

  2. 速度:比较模型的速度和性能。

    模型速度以每秒字数衡量,通过将测试期间生成的总字数除以测试时间(以秒为单位)来确定。为了确保Hugging Face模型之间的公平比较,我们对所有模型使用相同的GPU(A100)和批量大小为1。超过150亿参数的模型分布在多个GPU上。

    比较应限于同一尺寸类别的模型。API或封闭模型只能与其他API模型进行比较,因为它们不托管在我们的基础设施上。

  3. 按尺寸划分的子排行榜:添加排行榜部分以允许根据尺寸比较模型。这将解决诸如:参数少于100亿的最佳阿拉伯语语言模型是什么?之类的问题。

    模型尺寸类别定义如下

    • 纳米:参数少于35亿的模型。
    • 小型:参数范围在35亿到100亿之间的模型。
    • 中型:参数范围在100亿到350亿之间的模型。
    • 大型:参数超过350亿的模型。
  4. 技能子排行榜:集成排行榜部分,方便根据能力比较模型。解决诸如识别长上下文处理的最佳阿拉伯语模型等问题。

  5. 可视化比较:使用雷达图比较两个或更多模型的技能。

  6. 深入探究:这份报告详细介绍了一个具体的模型,概述了它的优点和缺点。为了增加透明度,还提供了该模型的所有输出。

模型来源多样性

为了提供高性能阿拉伯语语言模型的全面视图,我们对以下两类模型进行了基准测试:

  • API:通过各自的API访问和测试的闭源模型。
  • Hugging Face:从Hugging Face下载并使用transformers库评估的开源模型。

结语

ABL为社区提供了一个独特的机会,可以评估阿拉伯语语言模型并为特定应用程序选择最佳模型。此外,ABL的新颖特性旨在鼓励创建更复杂、管理良好且视觉信息丰富的排行榜和基准。

我们很高兴看到技术和商业用户将如何利用基准和排行榜做出更明智的决策。

准备好了解更多了吗?

社区

注册登录 以评论