Falcon-Arabic:阿拉伯语语言模型的突破

社区文章 发布于2025年5月21日

image/png

查看我们的官方博客文章 (英文, 阿拉伯文)

我们很高兴推出 Falcon-Arabic,一个拥有70亿参数的语言模型,为阿拉伯语自然语言处理设定了新的基准。Falcon-Arabic 基于 Falcon 3 架构构建,是一个多语言模型,支持阿拉伯语、英语以及其他几种语言。它在通用知识、阿拉伯语语法、数学推理、复杂问题解决以及理解阿拉伯语方言的丰富多样性方面表现出色。Falcon-Arabic 支持 32,000 个token的上下文长度,使其能够处理长文档,并支持检索增强生成 (RAG)、深度内容创建和知识密集型任务等高级应用。

Falcon-Arabic 重新定义了阿拉伯语语言模型的可能性。它在同等规模的阿拉伯语大型语言模型中表现显著优于其他模型,甚至超越了体积大四倍的阿拉伯语原生模型和从其他语言改编而来的模型。这使得 Falcon-Arabic 不仅在性能方面达到了最先进水平,而且为使用阿拉伯语的开发者和研究人员提供了一个独特高效且易于访问的解决方案。

🚀 推出 Falcon-Arabic:推动阿拉伯语世界的大型语言模型发展

近年来,大型语言模型(LLM)彻底改变了人工智能,为翻译、内容创作、虚拟助手等提供了强大支持。然而,大部分进展都集中在英语等高度代表性的语言上,而阿拉伯语等语言则处于劣势。阿拉伯语面临独特的挑战:它在形态上非常丰富,存在双语现象(既有现代标准阿拉伯语(MSA),也有多种区域方言),并且被广泛应用于一个庞大且文化多样的群体中。开发强大的阿拉伯语LLM对于确保阿拉伯语社区充分融入人工智能革命至关重要。

为此,我们推出了 Falcon-Arabic,这是阿联酋技术创新研究院(TII)开发的 Falcon 3 模型家族的专门适应版本。Falcon 模型因其多语言优势和开源方法而获得全球认可。Falcon-Arabic 继承了这一传统,为阿拉伯语带来了先进的语言理解和生成能力。通过训练该模型以处理现代标准阿拉伯语和关键方言,Falcon-Arabic 填补了语言技术中的关键空白,从而在中东、北非地区实现了更自然、智能和包容的阿拉伯语 AI。

image/png

🦅 Falcon-Arabic 已上线 — 训练秘籍在此 🧪

构建 Falcon-Arabic 的起点是一个战略性决定:我们选择适应一个强大的多语言基础模型,而不是从头开始训练。在阿拉伯语大型语言模型领域,存在三种主要方法:从头训练(例如 Jais-native)、改编多语言模型(例如 Allam 或 Fanar),或使用原生支持阿拉伯语及其他语言的模型(例如 Qwen 或 LLaMA)。通过观察开放阿拉伯语大型语言模型排行榜,我们发现改编模型和多语言模型在效率和能力方面始终优于其他模型。为了延续这一势头,我们选择了 Falcon 3-7B,这是技术创新研究院(TII)开发的 Falcon 3 系列中在性能和资源效率之间取得实际平衡的模型。

核心挑战在于如何使Falcon 3-7B适应阿拉伯语,该模型最初在分词器和嵌入层缺乏阿拉伯语支持。我们通过扩展分词器的词汇表,增加了 32,000 个阿拉伯语专用词元,并采用了一种基于文本相似性新颖嵌入初始化策略来解决这个问题。这项技术将新的阿拉伯语词元映射到现有词汇表中语义相关的嵌入,使模型能够继承先前的知识并加速学习,尤其是在情感、抽象概念和推理模式方面。这使得 Falcon-Arabic 在理解和生成高质量阿拉伯语文本方面取得了先机。

在分词器和嵌入就位后,我们开始对高质量的100%原生阿拉伯语数据集进行持续预训练,避免使用机器翻译内容,以最大限度地减少文化偏见并保持语言的真实性。训练遵循多阶段课程:早期阶段侧重于通用知识和方言丰富的阿拉伯语内容,以稳定模型并加强逻辑能力,而后期阶段则强调数学、代码和推理。最终的模型不仅能流利地说各种阿拉伯方言,而且保留了 Falcon 的多语言和推理优势,为阿拉伯语优先的 AI 拓展了边界。

预训练模型的平均性能

image/png

📊 Falcon-Arabic:提升阿拉伯语大型语言模型标准

我们在 OALL v2 上评估了 Falcon-Arabic,这是阿拉伯语语言模型的领先基准。它包括六项多项选择任务,如阿拉伯语 MMLU(原生和翻译)、阿拉伯语考试、Alghafa、MadinahQA、Aratrust,以及一项生成式基准测试 Alrage。Falcon-Arabic 在其尺寸范围内超越了所有现有阿拉伯语大型语言模型,甚至在阿拉伯语原生模型和从其他语言改编的模型中,其性能也超过了大四倍的模型。它在阿拉伯语 MMLU、考试、MadinahQA 和 Aratrust 等关键基准测试中处于领先地位,为阿拉伯语优先的语言模型设定了新标准。

image/png

预训练模型对比表

image/png

Falcon-Arabic-7B-Base 的评估详情(对数概率、预测和 LLM 作为评判标准)可在https://huggingface.co/datasets/tiiuae/Falcon-Arabic-7B-Base-details查看。

🗣️ 从预训练到指令微调:为对话场景优化 Falcon-Arabic

在完成基础模型训练后,我们进行了后期训练对齐阶段,以根据人类偏好微调 Falcon-Arabic 的响应。此阶段始于监督微调(SFT),结合使用高质量公共数据集和内部收集的原生阿拉伯语指令数据,涵盖一系列任务和对话场景。

为了进一步增强对齐效果,我们应用了直接偏好优化 (DPO),这是一种基于强化学习的方法,用于调整模型以优先输出人类评定为更有帮助、更安全、更相关的结果。这个两步流程确保了 Falcon-Arabic Instruct 不仅能很好地理解阿拉伯语,而且能以符合真实用户期望的方式进行响应。

指令微调模型的平均性能

image/png

如结果图所示,Falcon-Arabic Instruct 处于领先地位,在多个基准测试中超越了所有其他相同规模的指令微调阿拉伯语大型语言模型,甚至包括那些参数量显著更大的模型。该模型在指令遵循和开放式对话方面表现出色,为阿拉伯语会话式 AI 树立了新标准。

指令微调模型按基准测试的表现

image/png

聊天模型对比表

image/png

Falcon-Arabic-7B-Instruct 的评估详情(对数概率、预测和 LLM 作为评判标准)可在https://huggingface.co/datasets/tiiuae/Falcon-Arabic-7B-Instruct-details查看。

🔓 释放阿拉伯语AI的潜力

Falcon-Arabic 为阿拉伯语语言模型设定了新的基准。它仅有 70 亿参数,却在阿拉伯语 MMLU、MadinahQA 和 Aratrust 等关键基准测试中展现出最先进的性能,超越了同等规模甚至参数量大几倍的模型。它结合了现代标准阿拉伯语的流畅性、对区域方言的强大理解能力以及强大的推理和多语言能力,使其非常适合广泛的应用:从阿拉伯语优先的聊天机器人和教育工具,到内容生成、代码辅助和文档理解。

为了让您亲身体验 Falcon-Arabic 的功能,我们构建了一个简单的演示,展示了其在机器翻译方面的能力,尽管该模型并未专门针对此任务进行微调。该工具纯粹运行在 Falcon-7B-Arabic-Instruct 上,其在各种翻译方向上的结果都出乎意料地强大。您可以通过下方链接的演示亲自尝试。事实上,我们使用相同的设置将这篇博文翻译成阿拉伯语,以供我们的阿拉伯语读者阅读。点击此处查看 🚀。如果您想了解更多,我们还提供了一个在线交互平台,您可以在其中与 Falcon-Arabic Instruct 进行交互,体验其在不同任务中的表现 ✨。

⚠️ 局限性

与所有大型语言模型一样,Falcon-Arabic 继承了一些常见的局限性。这些局限性包括偶尔出现幻觉(生成看似合理但不正确的结果)、对提示措辞的敏感性以及在非常长的上下文中表现不一。尽管 Falcon-Arabic 旨在减少这些问题,尤其是在阿拉伯语任务中,但用户在解释结果时仍应保持批判性思维,特别是在高风险或事实敏感的用例中。

引用

如果您发现这项工作对您的研究或项目有所帮助,请考虑引用它。

@misc{falcon-arabic,
    title = {Falcon-Arabic: A Breakthrough in Arabic Language Models},
    author = {Falcon-LLM Team},
    month = {May},
    url = {https://falcon-lm.github.io/blog/falcon-arabic},
    year = {2025}
}

社区

大家好,我喜欢这个版本的 Falcon,但我想知道如何下载模型以在本地使用?

·
文章作者

你好 @Azedemp
该模型是闭源的,仅在 https://chat.falconllm.tii.ae/ 上可用

这个模型有API吗?

注册登录 以评论