欢迎来到 Falcon 3 开源模型系列!

发布于 2024 年 12 月 17 日
在 GitHub 上更新

我们隆重推出 Falcon3,这是一系列由阿布扎比技术创新研究所 (TII) 开发的、参数量低于 100 亿的仅解码器(decoder-only)大语言模型。本次发布突破了性能和训练效率的界限,体现了我们对推进开放、易用的大型基础模型的一贯承诺。

Falcon3 是先前版本的自然演进,重点在于扩展模型在科学、数学和代码方面的能力。

本次迭代包括五个基础模型:

  1. Falcon3-1B-Base
  2. Falcon3-3B-Base
  3. Falcon3-Mamba-7B-Base
  4. Falcon3-7B-Base
  5. Falcon3-10B-Base

在开发这些模型时,我们融入了多项关键创新,旨在提升模型性能的同时降低训练成本:

  • 针对 Transformer 模型的单次预训练: 我们利用 1024 块 H100 GPU 芯片,对 7B 模型进行了一次大规模的预训练。训练数据量达到 14 万亿 token,涵盖了网页、代码、STEM、精选高质量及多语言数据。
  • 通过深度扩展提升推理能力: 基于近期关于模型深度影响的研究,我们通过复制冗余层并将 7B 模型扩展至 10B 参数,然后继续使用 2 万亿 token 的高质量数据进行预训练。由此产生的 Falcon3-10B-Base 在参数量低于 13B 的模型中,实现了最先进的零样本(zero-shot)和少样本(few-shot)性能。
  • 通过知识蒸馏优化小型模型: 为了提供紧凑高效的替代方案,我们利用剪枝和知识蒸馏技术,仅使用不到 100GT 的精选高质量数据,开发了 Falcon3-1B-Base 和 Falcon3-3B-Base,从而重新定义了预训练的效率。
  • 纯 SSM 模型: 我们通过在额外 1.5 万亿 token 的高质量数据上进行训练,进一步增强了 Falcon Mamba 7B,最终得到 Falcon3-Mamba-7B-Base。值得注意的是,更新后的模型在推理和数学能力上有了显著提升。
  • 其他变体: Falcon3 系列中的所有模型都提供多种变体,如 Instruct、GGUF、GPTQ-Int4、GPTQ-Int8、AWQ 和 1.58-bit,为广泛的应用场景提供了灵活性。

主要亮点

Falcon3 在常见基准测试中展现了卓越的性能,挑战了中小型大语言模型的极限。

  • Falcon3-1B-Base 的性能超越了 SmolLM2-1.7B,并与 gemma-2-2b 相当。
  • Falcon3-3B-Base 的性能优于 Llama-3.1-8B 和 Minitron-4B-Base 等更大规模的模型,凸显了知识蒸馏预训练的优势。
  • Falcon3-7B-Base 在 9B 规模以下模型中表现出顶级性能,与 Qwen2.5-7B 相当。
  • Falcon3-10B-Base 作为最先进的模型,在 13B 以下类别中取得了优异成绩。
  • 所有基于 Transformer 的 Falcon3 模型都与 Llama 架构兼容,从而能够更好地融入 AI 生态系统。
  • Falcon3-Mamba-7B 仍然是性能领先的状态空间语言模型 (SSLM),在 7B 规模上,其性能与领先的基于 Transformer 的 LLM 相当甚至更优,并且支持更长的 32K 上下文长度。由于其架构与原始的 Falcon Mamba 7B 相同,用户无需额外操作即可无缝集成 Falcon3-Mamba-7B。
  • 我们基础模型系列的指令微调版本在各种基准测试中也表现出色,其中 Falcon3-7B-Instruct 和 Falcon3-10B-Instruct 在公开排行榜上超越了 13B 规模以下的所有指令微调模型。

增强的能力

我们使用内部评估流程(基于 lm-evaluation-harness)对模型进行了评估,并报告原始分数。我们的评估突出了 Falcon3 模型系列表现卓越的关键领域,反映了其在科学领域、推理能力和通用知识能力方面的性能提升。

  • 数学能力: Falcon3-10B-Base 在 MATH-Lvl5 上的得分为 22.9,在 GSM8K 上的得分为 83.0,展示了在复杂数学任务中增强的推理能力。
  • 编码能力: Falcon3-10B-Base 在 MBPP 上的得分为 73.8,而 Falcon3-10B-Instruct 在 Multipl-E 上的得分为 45.8,反映了它们在编程相关任务中的泛化能力。
  • 扩展的上下文长度:Falcon3 系列中的模型支持高达 32k 的 token(1B 模型除外,支持高达 8k 的上下文),并在功能上有所改进,例如 Falcon3-10B-Instruct 在 BFCL 上的得分为 86.3。
  • 改进的推理能力: Falcon3-7B-Base 和 Falcon3-10B-Base 在 BBH 上的得分分别为 51.0 和 59.7,反映了推理能力的增强,其中 10B 模型的推理性能优于 7B 模型。
  • 科学知识扩展: 在 MMLU 基准测试中的表现证明了其在专业知识方面的进步,Falcon3-7B-Base 在 MMLU/MMLU-PRO 上的得分分别为 67.4/39.2,Falcon3-10B-Base 的得分则为 73.1/42.5。

模型规格与基准测试结果

下表总结了 Falcon3 模型系列的详细规格。Falcon3-7B-Base 的架构特点是头维度(head dimension)为 256,在使用 FlashAttention-3 时可实现高吞吐量,因为后者针对该维度进行了优化。这些仅解码器模型中,基于 Transformer 的模型层数从 18 到 40 层不等,而 Mamba 模型为 64 层。所有模型均使用 SwiGLU 激活函数,词汇表大小为 13.1 万 token(Mamba-7B 为 6.5 万)。Falcon3-7B-Base 在最大量的数据上进行训练,以确保对概念和知识的全面覆盖,而其他变体所需的数据量要少得多。



Training efficiency


下表突出了 Falcon3-7B-Base 和 Falcon3-10B-Base 在关键基准测试上的性能,显示出在通用、数学、推理和常识理解领域的竞争优势。欢迎查看模型的卡片,我们在其中提供了额外的评估结果(例如 MT-Bench、Alpaca 等)。

Training efficiency


如下表所示,指令微调模型也展现出与同等规模和更小规模模型相比具有竞争力和超强的性能。

指令微调模型

Falcon3-1B-Instruct 和 Falcon3-3B-Instruct 在评估的基准测试中均取得了稳健的性能。具体来说,Falcon3-1B 在 IFEval (54.4)、MUSR (40.7) 和 SciQ (86.8) 上取得了有竞争力的结果,而 Falcon3-3B 则表现出进一步的提升——尤其是在 MMLU-PRO (29.7) 和 MATH (19.9) 上——展示了清晰的规模效应。尽管它们并未在所有指标上超越所有竞争模型,但与 Qwen 和 Llama 相比,Falcon 模型在推理和常识理解方面表现出强大的性能。在我们的内部评估流程中:

  • 我们使用 lm-evaluation harness
  • 我们报告的是应用聊天模板后获得的原始分数未使用 fewshot_as_multiturn(与 Llama3.1 不同)。
  • 我们对所有模型使用相同的批量大小 (batch-size)。



Training efficiency


此外,Falcon3-7B 和 Falcon3-10B 在评估的基准测试中表现稳健。Falcon3-7B 在推理(Arc Challenge: 65.9, MUSR: 46.4)和数学(GSM8K: 79.1)方面取得了有竞争力的分数,而 Falcon3-10B 则展示了进一步的提升,尤其是在 GSM8K (83.1) 和 IFEval (78) 上,表明了清晰的规模效益。

Training efficiency


开源承诺

为了履行我们促进 AI 可及性和协作的使命,Falcon3 系列中的所有模型都根据 Falcon LLM 许可证 发布。我们希望 AI 社区能发现这些模型对于研究、应用开发和进一步实验的价值。Falcon3 不是我们努力的终点,而是我们创造更强大、更高效、更专业的基础模型的延续。在 2025 年 1 月,我们将进一步发布 Falcon3 系列的其他模型,这些模型将具备增强的多模态能力,包括图像、视频和音频支持,并会发布一份涵盖我们方法的完整技术报告。在我们不断完善和推进这些技术的过程中,我们欢迎社区的反馈和协作。

实用链接

致谢

我们热烈感谢以下人员在生态系统中的顺利支持和整合。

引用

如果 Falcon3 模型系列对您的工作有所帮助,欢迎引用我们。

@misc{Falcon3,
    title = {The Falcon 3 Family of Open Models},
    url = {https://huggingface.co/blog/falcon3},
    author = {Falcon-LLM Team},
    month = {December},
    year = {2024}
}

社区

注册登录以发表评论