SILMA RAGQA V1.0:一个用于评估LLM在RAG QA用例上表现的综合基准测试

社区文章 发布于 2024年12月18日

SILMA RAGQA是由silma.ai策划的基准测试,旨在评估阿拉伯语/英语语言模型在抽取式问答任务中的有效性,尤其侧重于RAG应用。

该基准包括17个阿拉伯语和英语双语数据集,涵盖了各个领域。


该基准测试了哪些能力?

  • 通用阿拉伯语和英语问答能力
  • 处理长短上下文的能力
  • 有效提供长短答案的能力
  • 回答复杂数值问题的能力
  • 根据表格数据回答问题的能力
  • 多跳问答:使用来自多个段落的数据片段回答一个问题的能力
  • 否定拒绝:识别并驳回不准确响应的能力,提供更精确的表述,如“在所提供上下文中找不到答案。”
  • 多领域:根据来自不同领域(如金融、医疗等)的文本回答问题的能力。
  • 噪声鲁棒性:处理嘈杂和模糊上下文的能力

数据源

名称 语言 大小(采样) 链接 论文
xquad_r en 100 https://huggingface.co/datasets/google-research-datasets/xquad_r/viewer/en https://arxiv.org/pdf/2004.05484
xquad_r ar 100 https://huggingface.co/datasets/google-research-datasets/xquad_r/viewer/ar https://arxiv.org/pdf/2004.05484
rag_instruct_benchmark_tester en 100 https://huggingface.co/datasets/llmware/rag_instruct_benchmark_tester https://medium.com/@darrenoberst/how-accurate-is-rag-8f0706281fd9
covidqa en 50 https://huggingface.co/datasets/rungalileo/ragbench/viewer/covidqa/test https://arxiv.org/abs/2407.11005
covidqa ar 50 由Google Translate从covidqa_en翻译而来 https://arxiv.org/abs/2407.11005
emanual en 50 https://huggingface.co/datasets/rungalileo/ragbench/viewer/emanual/test https://arxiv.org/abs/2407.11005
emanual ar 50 由Google Translate从emanual_en翻译而来 https://arxiv.org/abs/2407.11005
msmarco en 50 https://huggingface.co/datasets/rungalileo/ragbench/viewer/msmarco/test https://arxiv.org/abs/2407.11005
msmarco ar 50 由Google Translate从msmarco_en翻译而来 https://arxiv.org/abs/2407.11005
hotpotqa en 50 https://huggingface.co/datasets/rungalileo/ragbench/viewer/hotpotqa/test https://arxiv.org/abs/2407.11005
expertqa en 50 https://huggingface.co/datasets/rungalileo/ragbench/viewer/expertqa/test https://arxiv.org/abs/2407.11005
finqa en 50 https://huggingface.co/datasets/rungalileo/ragbench/viewer/finqa/test https://arxiv.org/abs/2407.11005
finqa ar 50 由Google Translate从finqa_en翻译而来 https://arxiv.org/abs/2407.11005
tatqa en 50 https://huggingface.co/datasets/rungalileo/ragbench/viewer/tatqa/test https://arxiv.org/abs/2407.11005
tatqa ar 50 由Google Translate从tatqa_en翻译而来 https://arxiv.org/abs/2407.11005
boolq ar 100 https://huggingface.co/datasets/Hennara/boolq_ar https://arxiv.org/pdf/1905.10044
sciq ar 100 https://huggingface.co/datasets/Hennara/sciq_ar https://arxiv.org/pdf/1707.06209

SLM评估

CleanShot 2024-12-14 at 23.34.12@2x.png

SILMA Kashif是一款新模型,将于2025年1月初发布。

模型名称 基准分数
SILMA-9B-Instruct-v1.0 0.268
Gemma-2-2b-it 0.281
Qwen2.5-3B-Instruct 0.3
Phi-3.5-mini-instruct 0.301
Gemma-2-9b-it 0.304
Phi-3-mini-128k-instruct 0.306
Llama-3.2-3B-Instruct 0.318
Qwen2.5-7B-Instruct 0.321
Llama-3.1-8B-Instruct 0.328
c4ai-command-r7b-12-2024 0.330
SILMA-Kashif-2B-v0.1 0.357

如何评估你的模型?

请遵循基准页面上的步骤。

社区

注册登录以发表评论