SILMA Kashif:阿拉伯语RAG模型
隆重推出 SILMA Kashif 2B Instruct v1.0,作为SILMA Kashif家族的首个模型,专为阿拉伯语和英语RAG任务设计,擅长根据提供的上下文回答问题。虽然其主要优势在于问答,但Kashif也具备实体抽取这一次要技能。
性能强劲
SILMA Kashif 2B v1.0 在3-9亿参数范围的开源RAG模型中处于顶尖地位。使用 SILMA RAGQA 基准测试 进行的严格评估证实了其卓越的性能。Kashif建立在Google Gemma的坚实基础上,融合了两者的优势,提供了无与伦比的结果。作为一个开放权重模型,它在开放许可下可免费使用,进一步普及了强大AI工具的使用。凭借12k的上下文长度,Kashif可以处理大量的文本输入,从而实现细致入微且全面的问答。
多方面技能
Kashif 经过严格训练,磨练了其在各种任务中的能力:
- 双语能力: 流畅地回答阿拉伯语和英语问题。
- 上下文掌握: 能够同样精细地处理短片段和长篇幅文章。
- 灵活响应: 根据需要提供简洁的答案或详细的解释。
- 数字敏锐度: 处理复杂的数字问题,尽管存在限制(见下文)。
- 表格数据理解: 从表格中提取信息以回答相关查询。
- 多跳推理: 综合多段信息以回答复杂问题。
- 否定拒绝: 智能地识别并拒绝不准确的答案,转而给出明确的“在给定上下文中找不到答案”的响应。
- 多领域专业知识: 回答金融、医学和法律等不同领域的问题。
- 歧义解决: 在模棱两可的上下文中导航,提供准确和相关的答案。
- 实体抽取: 从文本中识别和抽取关键实体。
- 提示多功能性: 处理各种复杂和多样化的提示。
评估与基准
SILMA RAGQA 基准测试 对 Kashif 进行了严格的测试,涵盖了FinQA、TatQA、MS MARCO、SciQ、COVIDQA、EManual、XQuAD、BoolQ 和 HotpotQA 等一系列阿拉伯语和英语数据集。尽管在精确匹配、ROUGE1、BLEU 和 BERTScore 等指标上取得了令人印象深刻的平均分数,Kashif 的总体基准分数仍达到可观的 0.3478,显示出其强大的性能。
开始使用Kashif
使用 Transformers 库可以轻松地使用 Kashif。只需简单的 pip install
,然后使用 pipeline API 编写 几行代码,即可快速开始查询模型。提供了阿拉伯语和英语提示的示例,并概述了获得最佳性能的推荐格式。Ollama 用户也可以使用简化的命令运行模型。
硬件要求和量化
为获得最佳性能,建议使用至少24GB显存的GPU(例如Nvidia RTX 4090)。然而,Kashif也可以在显存低至8GB的GPU上运行(例如Nvidia RTX 3070、3080或T4),尽管性能可能会受到影响。将模型量化为4位可以减少内存占用,但会带来轻微的性能损失(分数下降约2.6%)。
局限性和预期用途
尽管Kashif具有诸多优势,但它也存在局限性。由于其参数规模,其在复杂数值和金融推理任务上的表现不佳。此外,其专注于基于文本的问答意味着它可能无法胜任此范围之外的任务。
阿拉伯语NLP的宝贵工具
SILMA Kashif 由 SILMA AI 开发,该公司是专门从事阿拉伯语语言模型的领先 GenAI 初创公司,它代表了阿拉伯语自然语言处理(NLP)领域的重大进步。其开放可用性、强大的性能以及对 RAG 任务的专注,使其成为研究人员、开发人员以及任何处理阿拉伯语和英语文本的人员的宝贵工具。虽然它不是一个通用模型,但其在 RAG 领域的优势是不可否认的,为问答和信息检索带来了激动人心的新可能性。