阿拉伯语LLM模型

社区文章 发布于2025年3月4日

image/png

阿拉伯语LLM模型生态系统正在迅速扩展,这给跟上最新发展带来了挑战。本文旨在通过提供一个持续更新新阿拉伯语LLM模型的综合资源来解决这个问题,为用户提供必要的信息和链接,以选择最适合其特定任务的模型。这份动态文档将成为您所有阿拉伯语LLM模型需求的首选资源。

选择标准

要包含一个模型,以下 任一条件 必须为真:

  • 模型是开源的
  • 模型可以通过在线链接试用
  • 模型以API形式提供

通用模型

以下是通用阿拉伯语模型列表(顺序不代表性能)

名称 大小 许可证 链接 评论
SILMA v1.0 9B 开放权重 (Gemma) https://huggingface.co/silma-ai/SILMA-9B-Instruct-v1.0 基于Gemma。在OALL V1基准测试中排名第一。
Fanar 7B 封闭 https://chat.fanar.qa/ 卡塔尔的主权模型
Fanar-1 9B 开放权重 (Apache 2.0) https://huggingface.co/QCRI/Fanar-1-9B-Instruct 卡塔尔的主权模型
Allam 7B 开放权重 (Apache 2.0) https://huggingface.co/ALLaM-AI/ALLaM-7B-Instruct-preview 沙特的主权模型
Jais 5.9亿至700亿 开放权重 (Apache 2.0) https://huggingface.co/collections/inceptionai/jais-family-66add8bb9c381f5492ddb6f4 阿联酋的阿拉伯语模型,也是首批参与者之一
AceGPT-7B-chat 7B-32B 开放权重 (Apache 2.0) https://huggingface.co/FreedomIntelligence/AceGPT-7B-chat
Cohere command-r7b-arabic 8B 开放权重 (CC 非商业 4.0) https://huggingface.co/CohereForAI/c4ai-command-r7b-arabic-02-2025 通用+针对RAG优化
Cohere command-a-03-2025 111B 开放权重 (CC 非商业 4.0) https://huggingface.co/CohereForAI/c4ai-command-a-03-2025 通用+针对RAG优化
Cohere aya-expanse 8B-32B 开放权重 (CC 非商业 4.0) https://huggingface.co/CohereForAI/aya-expanse-32b
Gemma 2 2B-27B 开放权重 (Gemma) https://huggingface.co/google/gemma-2-9b-it Google的多语言开放模型,包含阿拉伯语
Gemma 3 1B-27B 开放权重 (Gemma) https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d Google的多语言(*多模态)开放模型,包含阿拉伯语
Qwen 2.5 0.5B-72B 开放权重 (Apache 2.0) https://huggingface.co/Qwen/Qwen2.5-0.5B 阿里巴巴的多语言开放模型,包含阿拉伯语
Qwen 3 0.6B-235B 开放权重 (Apache 2.0) https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f 阿里巴巴的多语言开放模型,包含阿拉伯语
Llama 3.3 70B 开放权重 (Llama 3.3 社区许可协议) https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct Meta的多语言开放模型,包含阿拉伯语。在OALL基准测试中表现非常出色
Llama 3.2 1B-3B 开放权重 (Llama 3.3 社区许可协议) https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct Meta的多语言开放模型,包含阿拉伯语。
Phi 3.5 4B 开放权重 (MIT) https://huggingface.co/microsoft/Phi-3.5-mini-instruct 微软的多语言开放模型,包含阿拉伯语。
Phi 4 4B 开放权重 (MIT) https://huggingface.co/microsoft/Phi-4-mini-instruct 微软的多语言开放模型,包含阿拉伯语。
Mistral Saba 24B 封闭 https://mistral.org.cn/news/mistral-saba 仅通过API提供
Ar-stablelm-2-chat 1.6B 开放权重 (MIT) https://huggingface.co/stabilityai/ar-stablelm-2-chat
Yehia-7B-preview 7B 开放权重 (MIT) https://huggingface.co/Navid-AI/Yehia-7B-preview 基于Allam

RAG优化模型

以下是为RAG生成用例训练和优化的模型列表

名称 大小 许可证 链接 评论
SILMA Kashif v1.0 2B 开放权重 (Gemma) https://huggingface.co/silma-ai/SILMA-Kashif-2B-Instruct-v1.0 基准测试
Cohere command-r7b-arabic 8B 开放权重 (CC 非商业 4.0) https://huggingface.co/CohereForAI/c4ai-command-r7b-arabic-02-2025 通用+针对RAG优化

视觉与OCR

以下是具有多模态能力(视觉、文本等)的模型列表

名称 大小 许可证 链接 评论
AIN 8B 开放权重 (MIT) https://huggingface.co/MBZUAI/AIN 基于Qwen
Qari OCR 2B 开放权重 (Apache 2.0) https://huggingface.co/NAMAA-Space/Qari-OCR-0.1-VL-2B-Instruct 基于Qwen。仅OCR
Cohere aya-vision 8B-32B 开放权重 (CC 非商业 4.0) https://huggingface.co/collections/CohereForAI/c4ai-aya-vision-67c4ccd395ca064308ee1484

方言优化模型 - 叙利亚阿拉伯语

针对黎凡特方言优化的模型

名称 大小 许可证 链接 评论
Shahin-v0.1 14B 开放权重 (Apache 2.0) https://huggingface.co/malhajar/Shahin-v0.1 基于Qwen

方言优化模型 - 摩洛哥阿拉伯语

为摩洛哥口语阿拉伯语Darija调整的模型

名称 大小 许可证 链接 评论
Atlas-Chat 9B-27B 开放权重 (Gemma) https://huggingface.co/MBZUAI-Paris/Atlas-Chat-9B 基于Gemma

方言优化模型 - 突尼斯阿拉伯语

为突尼斯阿拉伯语调整的模型

名称 大小 许可证 链接 评论
Labess Chat 7B 开放权重 (apache-2.0) https://huggingface.co/linagora/Labess-7b-chat 基于Jais

缺少模型?

如果您认为某个模型未包含在列表中,请在下方留言。如果它符合必要的标准,将被添加。

如何选择模型?

除了在实际用例中测试模型外,基准测试对于评估模型性能的各个方面也很有价值。

以下文章包含阿拉伯语AI基准列表 https://huggingface.co/blog/silma-ai/arabic-ai-benchmarks-and-leaderboards

社区

您好 Karim,这很有见地和用处,谢谢!
但我知道一些可以添加的阿拉伯语视觉语言模型,如果这有帮助的话。

  1. Maya: MSA
  2. Palo : MSA
  3. Dallah : 方言
  4. Peacock: MSA
  5. Pangea: MSA
·
文章作者

请分享链接,并确保其符合以下任何标准

模型是开源的
模型可以通过在线链接试用
模型以API形式提供

Falcon?

·
文章作者

注册登录 以评论