📚 3LM：衡量阿拉伯语大型语言模型在STEM和代码领域表现的基准

社区文章发布于2025年8月1日

📄 arXiv上的论文 | 📦 HuggingFace上的数据集 | 🔧 GitHub上的代码

为什么选择3LM？

近年来，阿拉伯语大型语言模型（LLM）取得了显著进展，但现有基准在评估其在高价值技术领域的性能时仍显不足。迄今为止，大多数评估都集中在通用任务上，如摘要、情感分析或通用问答。然而，科学推理和编程对于从教育到技术问题解决等广泛的实际应用至关重要。

为了弥补这一空白，我们引入了 **3LM (علم)**，这是一个多组件基准，旨在评估阿拉伯语大型语言模型在STEM（科学、技术、工程和数学）科目和代码生成方面的表现。3LM是同类基准中的首个，专门设计用于测试阿拉伯语模型在结构化推理和形式逻辑方面的能力，这些领域在阿拉伯语自然语言处理中传统上代表性不足。

基准测试包含哪些内容？

3LM 由三个数据集组成，每个数据集针对一个特定的评估维度：真实世界的多项选择STEM问题（MCQs）、合成的高难度STEM问题以及翻译的代码生成任务。

1. 原生STEM

原生STEM基准包含865道多项选择题，这些问题摘自8至12年级的真实阿拉伯语教育内容，包括教科书、练习册和考试题库。问题涵盖物理、化学、生物、数学和地理五个核心科目。

每个问题都附有元数据，包括领域和难度（1-10分）。数据通过结合OCR（包括通过Pix2Tex进行LaTeX数学解析）、LLM辅助问答提取和人工审查的流水线获取。该数据集为使用真实教育材料评估阿拉伯语模型的事实和概念理解提供了现实的测试平台。

2. 合成STEM

为了增加挑战性和多样性，我们使用YourBench流水线创建了一个包含1,744道MCQ的合成子集。该组件来源于阿拉伯语教科书文本，这些文本经过分块、摘要，并作为输入馈送到LLM驱动的问题生成系统。其结果是一组精心策划的问题，侧重于中高难度推理，包括概念、分析和应用型问题。

合成STEM通过深入探究推理能力并最大程度地减少答案偏差，为原生MCQ提供了重要的补充。所有生成的问题都经过了清晰度、结构和内容有效性的过滤，随后通过人工审查进行质量保证。

3. 阿拉伯语代码基准

3LM的第三个组件是代码生成，这是LLM评估中一个不断增长的领域。我们翻译并改编了广泛使用的HumanEval+和MBPP+基准，创建了第一个用于测试阿拉伯语LLM在自然语言编程提示上的代码数据集。

我们使用GPT-4o进行提示翻译，并通过反向翻译流水线验证结果，根据ROUGE-L F1阈值（< 0.8）拒绝低质量样本。额外的人工过滤确保了提示的清晰度和正确性。代码和测试套件保持不变，以保持评分的准确性。评估使用EvalPlus框架进行pass@1和pass@1+指标。

构建基准

3LM 中的每个数据集都经过了多阶段开发过程，以确保数据质量、公平性和代表性。

对于**原生 STEM**，我们收集了阿拉伯语 PDF 源文件，并采用双重 OCR 方法来恢复纯文本和数学公式。问题使用基于 LLM 的分块和模式识别技术进行提取，然后分类为多项选择题格式，并随机排列答案顺序。最终样本由具有 STEM 专业知识的阿拉伯语母语者进行审查，以确认答案的有效性和可读性。

对于**合成 STEM**，YourBench 流水线被 адаптирован为阿拉伯语输入。摄取后的源文档首先被摘要、分块，然后输入到代码控制的生成器中，用于创建 MCQ。我们过滤掉了依赖图像或模糊不清的内容，并且只保留了目标难度范围内的问。结果是一组干净、高质量的合成阿拉伯语 STEM MCQ。

对于**代码基准**，我们的目标是在保持代码逻辑的同时隔离语言理解。提示翻译由 GPT-4o 处理，并通过反向翻译进行验证。代码和测试保持不变，以便与英语版本进行评估对等。结果是一个基准，阿拉伯语提示可以直接使用 EvalPlus 工具链进行评估。

主要结果

我们评估了40多个LLM，包括阿拉伯语优先模型、多语言模型以及通用型基础模型和指令调优模型。评估使用多项选择准确率和生成完成度指标。

在**MCQ设置**中，Qwen2.5-72B-Instruct在原生（71.8%）和合成（67.0%）STEM子集上都取得了最佳表现。对于**完成任务**，Gemma-3-27B表现出最强劲的结果，在STEM答案上的准确率为43.2%。

在**代码生成**方面，GPT-4o在HumanEval-ar（83.5% pass@1+）和MBPP-ar（63.6% pass@1+）上均表现出最佳性能。这些结果突出了阿拉伯语和英语pass@1分数之间的高度相关性（~0.97），表明特定语言的提示质量对模型结果有重大影响。

我们还研究了**干扰物扰动下的鲁棒性**，结果显示指令调优模型比其基础模型更稳定。提示工程和零样本设计也被证明对阿拉伯语 STEM 性能有显著影响。

评估工具

我们构建的基准易于使用标准工具进行复现

lighteval 处理 STEM 数据集的多项选择题和开放式问题的评估。
evalplus 通过函数级测试实现强大的 pass@1 和 pass@1+ 代码评分。

所有脚本、配置和评估管道均可在我们的 GitHub 仓库中找到，并且可以进行调整以评估任何与 HuggingFace Transformers 或 OpenAI API 兼容的模型。

访问数据集

所有三个数据集均开源并托管在 HuggingFace Datasets 上

引用

如果您在研究中使用3LM，请引用我们

@article{boussaha2025threeLM,
  title={3LM: Bridging Arabic, STEM, and Code through Benchmarking},
  author={Boussaha, Basma El Amel and AlQadi, Leen and Farooq, Mugariya and Alsuwaidi, Shaikha and Campesan, Giulia and Alzubaidi, Ahmed and Alyafeai, Mohammed and Hacid, Hakim},
  journal={arXiv preprint arXiv:2507.15850},
  year={2025}
}

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论