阿拉伯语RAG排行榜：评估阿拉伯语检索系统的综合框架

社区文章发布于2025年2月9日

哈姆扎·沙希德·马利克（Hamza Shahid Malik）

hamzashahid40

Navid-AI

穆罕默德·拉沙德（Mohamed Rashad）

MohamedRashad

Navid-AI

引言

嵌入模型就是你所需要的一切
嵌入的多功能应用

嵌入模型的未来

总体排行榜框架
目的和范围

主要贡献

框架方法论

RAG评估中的双重理念

检索评估
检索评估的数据集设计

检索评估的指标

重排序评估
重排序器评估的数据集设计和指标

查询拆分

特定指标标注

评估指标解释
平均倒数排名 (MRR)

归一化折现累积增益 (nDCG)

平均精确度 (MAP)

召回率@k

结论和未来方向
贡献摘要

未来工作和行动号召
计划中的开发

行动号召

引言

在阿拉伯语世界，信息真实性至关重要，因此对可靠的信息检索系统需求迫切。检索增强生成（RAG）领域正在改变我们与大型语言模型互动的方式，MTEB 和 Open LLM 等动态排行榜已成为重要的基准测试工具。然而，阿拉伯语模型在这些评估中代表性不足，这在评估阿拉伯语RAG系统方面造成了关键空白。

我们的排行榜项目旨在通过评估检索和重排序组件来弥补这一空白，并计划很快将评估扩展到其他组件，目标是成为所有检索需求的终极中心。为确保公平性并防止过拟合，数据集在评估周期中保持私有。

嵌入模型就是你所需要的一切

嵌入模型是现代检索系统的骨干，除了传统搜索之外，它们还支持各种应用。这些模型将文本转换为密集的向量表示，使得更有效地查找相关信息变得更加容易。

嵌入的多功能应用

语义搜索： 嵌入允许搜索引擎根据含义而非精确关键词匹配来检索相关文档。
推荐系统： 许多平台使用嵌入通过分析用户偏好和行为来推荐内容。
聚类与分类： 企业利用嵌入对大规模文本数据进行分类，以进行情感分析、客户支持自动化和欺诈检测。
跨语言检索： 多语言嵌入弥合了不同语言之间的差距，实现了无缝的跨语言搜索和翻译。
知识图谱增强： 嵌入通过链接相关概念来增强知识图谱，提高AI驱动应用中的上下文理解。

嵌入模型的未来

随着基于Transformer架构的不断改进，嵌入变得更加高效和适应性强。阿拉伯语RAG排行榜旨在突出为阿拉伯语检索量身定制的最佳嵌入模型，展示它们在各种现实场景中的影响。

总体排行榜框架

目的和范围

在当今快速发展的阿拉伯语NLP领域，构建强大的RAG管道取决于对检索组件和重排序模型进行仔细评估。我们的排行榜框架通过实施双流评估策略来应对这一双重挑战。一方面，它评估不同数据集和特定任务领域上的检索性能；另一方面，它使用既定指标（参见“指标”部分）评估重排序器的细粒度排序能力。

我们方法的优势在于其统一性：我们将来自不同评估方法的评估结果汇总到一个透明、连贯的视图中。这种整体框架不仅确保每个组件都经过严格评估，还提供了RAG系统的端到端性能指标，指导从业者为实际应用选择最佳模型。

      Figure 1: Mind Map Overview of the Arabic RAG Leaderboard Framework

主要贡献

解决关键需求

我们的排行榜通过为检索和重排序组件提供全面的基准，填补了阿拉伯语NLP领域的长期空白。
它提供了透明、多指标的评估，使模型开发者和最终用户能够为构建生产就绪的RAG管道做出明智的决策。

双重评估流

检索评估
- 通过评估各种数据集（从通用网络搜索查询到领域特定检索任务）的性能，关注数据集多样性和特定任务能力。
重排序器评估
- 利用带有分级相关性标签（用于NDCG）和二进制标签（用于MRR和MAP）的丰富标注数据集，强调细粒度排序质量。

框架方法论

公平性保障的隐私保护

为了防止过拟合并确保无偏评估，我们的数据集在测试周期中保持私有。

拓展到每个领域

我们的框架旨在适应RAG应用的各种领域，以便每个人都能找到最适合其需求的模型。

RAG评估中的双重理念

RAG系统评估方法有两种截然不同的哲学方法，每种方法都提供了独特的评估视角

以指标为中心的评估： 这种方法强调从准确率、召回率和精确率等评估指标中得出的数值分数。它对于那些希望全面了解模型性能并易于比较不同实现方案的人特别有用。
以数据集为中心的评估： 这种方法侧重于评估中使用的特定数据集及其所代表的领域。它非常适合那些为特定用例构建RAG系统并希望确保其模型在这些领域中表现良好的人。

鉴于这两种方法互补的优点，我们的框架平衡地整合了这些方法，以提供全面的评估覆盖。

检索评估

在检索增强生成（RAG）管道中，检索组件负责扫描大量语料库以提取可能包含回答查询所需信息的候选文档或上下文。第一阶段至关重要，因为它决定了如果RAG设计为两阶段，重排序器将后续细化哪些候选。

检索评估的数据集设计

检索评估采用“以数据集为中心的评估”理念。排行榜中的每个数据集都将反映一个特定的领域或任务，确保评估能够满足社区的需求。

目前，我们有一个名为“Web搜索数据集”的数据集，它模拟了一个通用的网络搜索场景。该数据集旨在测试检索组件从网络中提取正确上下文的能力，涵盖广泛的主题和查询类型。该数据集是完全从零开始生成的，没有基于任何现有工作，并且设计为隐私保护以防止过拟合。

检索评估的指标

MRR：衡量每个查询的第一个相关文档的平均倒数排名。
nDCG(k=无)：在没有固定截止点的情况下，根据检索到的文档的分级相关性评估排名质量。
召回率 (k=5)：评估在前5个结果中检索到的相关文档的比例。

重排序评估

重排序器评估侧重于RAG管道的第二阶段，在此阶段，对初始检索组件检索到的候选上下文应用细粒度排序机制。此阶段对于确保向生成模型呈现最相关的信息，从而提高最终输出的整体质量至关重要。

重排序器评估的数据集设计和指标

我们的重排序器评估数据集是一个混合资源，它利用真实用户查询和合成生成的上下文。这种设计能够对排序质量进行有针对性的评估，同时保留只有真实人类查询才能提供的自然真实性。具体而言，真实查询来自高质量、人工标注的数据集，例如：

TyDi QA: “TyDi QA： typologically Diverse Languages 中的信息检索问答基准”（Clark 等人，2020）
MKQA: “MKQA: A Multilingual Knowledge Questions Answering Dataset” (Lewis et al., 2020)

同时，合成上下文是使用多个大型语言模型作为代理作者生成的。这种受控、可复现的方法使我们能够精确评估重排序器对候选上下文进行排序的能力，确保在保持真实人类查询真实性的同时，我们还可以使用合成数据调整和压力测试排序能力。

       Figure 2: Pie chart illustrating the reranker dataset design

查询拆分

20% 带短上下文的查询
- 这些查询带有简洁的上下文——相关信息简短的情况。这种拆分使我们能够测试重排序器在必须从有限上下文识别答案的场景中的性能。
80% 带长上下文的查询
- 这些查询包含详细、上下文丰富的交互，其中候选文档更冗长。这种多数拆分确保我们评估重排序器筛选大量信息并正确优先考虑相关内容的能力。

特定指标标注

NDCG@10：使用分级相关性标签，其中3表示高度相关，2表示中度相关，1表示轻度相关，0表示不相关。
MRR@10：使用二进制标签——每个查询只有一个候选被标记为“1”。
MAP：使用二进制标签，但允许前10个中包含多个正确上下文。

评估指标解释

平均倒数排名 (MRR)

定义： 相关候选在查询中首次出现的倒数排名的平均值。
公式： MRR = (1 / N) * Σ (1 / rank_i)，其中 N 是查询数量，rank_i 是查询 i 的第一个正确候选的排名位置。
计算示例： 对于正确候选出现在排名第4位的查询，倒数排名为1/4 = 0.25。

归一化折现累积增益 (nDCG)

定义： 一种衡量排名质量的指标，通过使用分级相关性分数比较重排序列表的折现累积增益（DCG）与理想排名的折现累积增益。
公式： DCG = Σ_i=1^k ((2^rel_i -- 1) / log_2(i + 1)) NDCG = DCG / IDCG，其中 k 为顶部结果的数量（此处为10），rel_i 为位置 i 的相关性分数，IDCG 为该查询的最大可能DCG。
计算示例： 对于给定查询，其分级相关性分数产生的DCG为理想DCG的68%，则NDCG@10 = 0.68。

平均精确度 (MAP)

定义： 对于每个查询，在前10个候选者中计算的平均精确度值的平均值，考虑到可能存在多个正确响应。
公式： 对于每个查询，AP = (Σ_i=1^k (Precision@i × rel_i)) / (相关文档数量) MAP = (1 / N) * Σ_i=1^N AP_i，其中 k 为 10，N 为查询数量，rel_i 为文档在排名 i 处相关时为 1，否则为 0。
计算示例： 对于相关文档位于位置2、5和7的查询，AP的计算公式为(精确率@2 + 精确率@5 + 精确率@7) / 3。

召回率@k

定义： 在前k个结果中检索到的相关文档的比例。
公式： 召回率@k = (前k个中的相关文档数量) / (相关文档总数)。
计算示例： 如果一个查询有5个相关文档，而前10个结果中包含3个，则召回率@10 = 3 / 5 = 0.6。

结论和未来方向

贡献总结

我们的工作为阿拉伯语RAG系统领域做出了几项关键贡献

综合评估框架
- 第一个专门针对阿拉伯语RAG系统的基准
- 涵盖检索和重排序的双流评估方法
- 防止过拟合的隐私保护数据集架构
- 实现有针对性模型选择的领域特定分类
创新数据集设计
- 结合真实用户查询和合成上下文的混合架构
- 精心策划的查询拆分（20%短，80%长），反映真实世界场景
- 集成高质量来源，如TyDi QA和MKQA
- 支持多种评估指标的多层标注系统
稳健的指标实现
- 结合NDCG@10、MRR@10和MAP的多维评分系统
- 使用分级和二元标签进行细粒度相关性评估
- 透明的评估方法，可实现可重复的结果
- 支持未来指标添加的适应性框架

未来工作与行动号召

计划发展

将更多数据集集成到排行榜的检索类别中
将排行榜扩展到更多的RAG组件
自动化评估周期以实现更快的反馈循环

行动号召

我们邀请社区

提交模型进行评估
分享关于潜在改进或错误的任何反馈
合作扩展排行榜以涵盖更多RAG组件

社区

ngxson

2月17日

📻 🎙️ 嘿，我为这篇博客文章制作了一个播客，快来听听吧！

该播客由 ngxson/kokoro-podcast-generator 生成，使用了 DeepSeek-R1 和 Kokoro-TTS

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论