SILMA RAGQA V1.0:一个用于评估LLM在RAG QA用例上表现的综合基准测试
社区文章 发布于 2024年12月18日
SILMA RAGQA是由silma.ai策划的基准测试,旨在评估阿拉伯语/英语语言模型在抽取式问答任务中的有效性,尤其侧重于RAG应用。
该基准包括17个阿拉伯语和英语双语数据集,涵盖了各个领域。
该基准测试了哪些能力?
- 通用阿拉伯语和英语问答能力
- 处理长短上下文的能力
- 有效提供长短答案的能力
- 回答复杂数值问题的能力
- 根据表格数据回答问题的能力
- 多跳问答:使用来自多个段落的数据片段回答一个问题的能力
- 否定拒绝:识别并驳回不准确响应的能力,提供更精确的表述,如“在所提供上下文中找不到答案。”
- 多领域:根据来自不同领域(如金融、医疗等)的文本回答问题的能力。
- 噪声鲁棒性:处理嘈杂和模糊上下文的能力
数据源
SLM评估
SILMA Kashif是一款新模型,将于2025年1月初发布。
模型名称 | 基准分数 |
---|---|
SILMA-9B-Instruct-v1.0 | 0.268 |
Gemma-2-2b-it | 0.281 |
Qwen2.5-3B-Instruct | 0.3 |
Phi-3.5-mini-instruct | 0.301 |
Gemma-2-9b-it | 0.304 |
Phi-3-mini-128k-instruct | 0.306 |
Llama-3.2-3B-Instruct | 0.318 |
Qwen2.5-7B-Instruct | 0.321 |
Llama-3.1-8B-Instruct | 0.328 |
c4ai-command-r7b-12-2024 | 0.330 |
SILMA-Kashif-2B-v0.1 | 0.357 |
如何评估你的模型?
请遵循基准页面上的步骤。