Falcon-H1:重新定义效率和性能的混合头语言模型家族

引言
也请查看我们的官方博客文章
今天,我们很荣幸推出 Falcon-H1 系列,这是一系列包含六款开源模型的产品,参数量从 0.5B 到 34B 不等,每款都提供基础版和指令微调版。这些模型的核心是一种混合架构,它结合了经典基于 Transformer 的注意力机制和状态空间模型 (SSM) 的优点,后者以其卓越的长上下文记忆和计算效率而闻名。这种架构创新通过训练动态和数据利用方面的根本性改进得到进一步增强,使 Falcon-H1 模型能够在所有涵盖的尺寸级别上提供与顶级 Transformer 模型相媲美的性能,且不打折扣。
在此次发布中,我们提供了六款开放权重模型:0.5B、1.5B、1.5B-Deep、3B、7B 和 34B,以及它们的指令版本。所有开源模型均采用基于 Apache 2.0 的宽松许可。
Falcon-H1 的主要特点
混合架构(注意力 + SSM): 我们在混合混音器模块中并行结合了注意力头和 Mamba-2 头。重要的是,注意力头和 Mamba 头的数量可以独立调整,从而实现最佳的注意力/SSM 比。这种混合设计实现了更快的推理、更低的内存使用和跨任务的强大泛化能力。
广泛的模型尺寸: 提供六种规模的模型——0.5B、1.5B、1.5B-deep、3B、7B 和 34B,均有基础版和指令微调版,适用于从边缘设备到大规模部署的各种场景。
多语言设计: 原生支持18种语言,包括阿拉伯语 (ar)、捷克语 (cs)、德语 (de)、英语 (en)、西班牙语 (es)、法语 (fr)、印地语 (hi)、意大利语 (it)、日语 (ja)、韩语 (ko)、荷兰语 (nl)、波兰语 (pl)、葡萄牙语 (pt)、罗马尼亚语 (ro)、俄语 (ru)、瑞典语 (sv)、乌尔都语 (ur) 和中文 (zh)——借助我们基于多样化语言数据集训练的多语言分词器,可扩展至100多种语言。
小巧模型,强大性能: Falcon-H1-0.5B 提供了与 2024 年典型 7B 模型相当的性能,而 Falcon-H1-1.5B-Deep 则可与许多当前领先的 7B–10B 模型媲美。每款 Falcon-H1 模型都旨在匹配或超越其两倍大小的模型性能,使其成为低资源和边缘部署的理想选择,而不会牺牲功能。
支持 256K 上下文: Falcon-H1 模型支持高达 256K 的上下文长度,可应用于长文档处理、多轮对话和长距离推理。
卓越的 STEM 能力: Falcon-H1 模型在数学和科学领域表现出色,这得益于训练期间对高质量 STEM 数据的关注。
稳健的训练策略: 采用高效数据策略和定制的最大更新参数化 (μP),以确保模型在不同尺寸下的平滑和可扩展训练。
构建 Falcon-H1 的主要原则
在开始 Falcon-H1 系列开发时,我们选择从根本上重新思考训练方法。尽管 LLM 开发领域已趋于采用许多可靠且能产生强大模型的既定实践,但这些惯例主要是在经典 Transformer 架构上得到验证。从纯注意力机制转向混合注意力-SSM 设计代表了显著的架构变化,这使得这些标准实践是否仍然是最优的变得不确定。
鉴于这种不确定性,我们在启动最终训练运行之前,进行了大量的实验阶段,系统地重新审视了模型设计和训练方法的几乎所有方面。虽然我们将在即将发布的技术报告中提供全面的细节,但我们希望分享塑造 Falcon-H1 模型的关键见解。
架构
混合注意力-SSM模型具有更大的配置空间,涵盖了定义模型架构的所有参数。我们的目标是探测这些配置参数中的每一个,以检查其对模型性能和效率的影响。因此,我们揭示了模型配置空间中性能提高但效率成本适中的区域。我们可以将混合模型配置空间大致分为以下4个模块:
- SSM 特定参数。我们的 SSM 层基于 Mamba-2 架构,该架构被组织成类似于现代 Transformer 模型中注意力的头组。我们发现,头组或头数量偏离文献中常用值并不会提高性能,反而可能降低效率。相比之下,使用更大的内存大小(一个没有注意力类比的 SSM 特定变量)可以在性能上有所提升,而效率成本仅略微增加。
- 注意力特定参数。我们采用标准的完整注意力层。然而,我们发现使用旋转位置嵌入(RoPE)中极大规模的参数显著提高了模型性能。我们的假设是,与纯 Transformer 相比,在混合模型中,这样大的值成为可能,因为部分位置信息由模型的 SSM 部分本地处理。
- Mamba 和注意力的结合。在模型中结合注意力和 SSM 有多种方式,主要设计选择是顺序或并行方法。我们采用了上图中所示的并行方法。我们并行混合设计的关键特征是能够调整注意力头和 SSM 头的比例,我们发现相对较小比例的注意力足以实现良好的性能。
- 一般参数。在我们的实验中,我们观察到增加模型深度对性能影响最大,尽管会带来效率成本。这使得选择模型深度成为一个艰难的权衡,取决于具体的用例。我们的 Falcon-H1-1.5B-deep 就是基于这种权衡而设计,旨在满足在参数数量较少的情况下要求最大性能的使用场景。
数据策略
众所周知,语言模型的能力主要来源于训练数据,Falcon-H1 系列也不例外。除了为模型准备的原始数据外,这些数据在训练过程中如何以及何时展示也至关重要。一种常见的数据策略通常被称为“课程学习”,即在训练初期展示更简单的数据,而将需要更高级推理能力的样本留到后期。令人惊讶的是,完全相反的策略对我们来说效果最好。从训练一开始就提供最复杂的数据,无论是高级数学问题还是长上下文样本,似乎能给模型更多时间学习处理相应复杂任务所必需的特征。
另一个关键方面是高质量数据的稀缺性。训练大型模型时,一个常见的担忧是数据的暴力记忆而非其真正的理解。为了最大限度地降低这种记忆的风险,常见的做法是在训练过程中不重复使用数据样本,或者对于最高质量的样本最多重复几次。这种策略的一个副产品是数据混合中由网络样本主导,其数量与高质量来源相比不成比例地大。我们发现记忆效应可能被高估了,仔细估算模型的“记忆窗口”允许更频繁地重复使用高质量样本,而不会损害模型的泛化能力。
定制化最大更新参数化 (μP)
经典 μP 是一种根植于神经网络理论但具有清晰实际应用的技术:如果在单一基础模型尺寸下找到最优训练超参数,就可以使用 μP 缩放规则轻松地将其转移到其他(通常更大的)模型尺寸。我们为整个 Falcon-H1 系列采用了 μP 超参数转移,大大减少了实验时间,并使得并行训练 6 个模型成为可能。
在此基础上,我们进一步深入 μP 的内部工作原理,以进一步提升模型性能。简而言之,模型的每个组件都“希望”以其自身的强度进行训练,而这种强度取决于组件的大小。μP 缩放规则通过所谓的“μP 乘数”来考虑这种依赖性,以实现最佳超参数转移。然而,经典的 μP 在基础模型尺寸下使用微不足道的 1 倍乘数,这相当于假设所有组件的强度在基础尺寸下都已达到最优。我们摒弃了这一假设,并针对基础模型尺寸调整了乘数。具体来说,我们已将模型参数分为 35 个细粒度组,并对相应的 35 个乘数进行了联合优化。
训练动态
我们在开发 Falcon-H1 系列时采取的首批措施之一是处理并消除 SSM 模型中常见的尖峰问题。对我们来说,最有效的解决方案是在 SSM 模块的特定位置放置阻尼 μP 乘数。除了使最终模型训练平稳外,消除尖峰对于在后续实验中获得清晰的信号也至关重要。
我们观察到,训练动态的许多方面都与噪声解释和控制的共同主题相关联。这包括学习率和批量大小调度、学习率随批量大小的缩放以及参数范数的行为。特别是,我们发现参数范数主要由训练超参数而非模型拟合数据决定。考虑到这一点,我们将权重衰减(主要控制参数范数的超参数)纳入了训练调度和 μP 乘数中。
性能
指令模型
当前的 Falcon-H1 模型在训练时没有进行特定于推理的微调,但它们已经展示出强大的通用指令遵循能力。为了突出它们的性能,我们提供了 Falcon-H1-34B-Instruct 与其他类似规模或更大规模的顶级 Transformer 模型(包括 Qwen3-32B(非思维模式)、Qwen2.5-72B、Qwen2.5-32B、Gemma3-27B、Llama-4-Scout-17B-16E(109B)和 LLaMA3.3-70B)的详细比较。有关完整的评估设置和方法,请参阅 Falcon-H1 GitHub 页面。
Falcon-H1 系列的突出特点之一是其紧凑模型的强大性能。下面,我们比较了 1.5B 规模的指令模型。Falcon-H1-1.5B-Deep-Instruct 明显优于同类领先模型,例如 Qwen3-1.7B-Instruct。更值得注意的是,它与许多 7B 模型(包括 Falcon3-7B-Instruct 和 Qwen2.5-7B-Instruct)的性能不相上下甚至更好。
🔎 注意: Falcon-H1-1.5B-Deep 和 Falcon-H1-1.5B 使用相同的设置进行训练;唯一的区别在于它们的架构深度和宽度。
多语言能力
为了展示 Falcon-H1 在各种语言中的性能,我们提供了 Hellaswag 和 MMLU 在 30B 规模模型以及一组选定语言(包括阿拉伯语、德语、西班牙语、法语、印地语、意大利语、荷兰语、葡萄牙语、罗马尼亚语、俄语和瑞典语)上的平均得分。它还展示了在其他受支持语言中同等水平的性能。
长上下文基准
Falcon-H1 的突出特点之一是其处理长上下文输入的能力,这是状态空间模型 (SSM) 在内存效率和计算成本方面具有显著优势的领域。
为了展示这些能力,我们评估了 Falcon-H1-34B-Instruct 与 Qwen2.5-72B-Instruct 在一系列长上下文基准上的表现。我们重点关注 Helmet 基准套件中的三个核心任务类别——检索增强生成 (RAG):自然问题、TriviaQA、PopQA、HotpotQA;召回任务:JSON KV、RULER MK Needle、RULER MK UUID、RULER MV;长文档问答任务:∞BENCH QA、∞BENCH MC。这些评估突出了 Falcon-H1 在扩展到更长序列的同时保持高性能和高效率的优势。
此外,我们对 Falcon-H1 系列与领先的基于 Transformer 的模型在 23 个基准上进行了全面评估,涵盖了多个领域和模型规模。您可以在下方探索交互式结果——只需选择与您的用例最相关的基准即可查看相应的汇总性能分数(下方是我们官方博客文章中交互式绘图的截图)。
基础模型
我们提供了 Falcon-H1-34B-Base 与其他相同或更大规模的领先基础模型(包括 Qwen2.5-72B、Qwen2.5-32B、Llama-4-Scout-17B-16E(109B)和 Gemma3-27B)的详细比较。
🔎 注意: Qwen3-32B 目前不提供基础模型检查点。
下面,我们比较了 1.5B 规模的基础模型。Falcon-H1-1.5B-Deep-Base 明显优于同类领先模型,例如 Qwen3-1.7B-Base。值得注意的是,它与 Falcon3-7B 性能相当,甚至在数学和推理任务上超越了它,使其成为构建小型推理模型的基础。
对于基础模型,我们还在官方博客文章中提供了一个交互式图表,展示了它们在 14 个基准上的性能,涵盖了多个领域和各种模型规模(下图是我们官方博客文章中交互式图表的截图)。
模型效率
我们比较了 Falcon-H1 和 Qwen2.5-32B 的输入(预填充)和输出(生成)吞吐量。虽然 Transformer 在较短上下文长度下稍快,但我们的混合模型在上下文增长时显著提高效率——在较长序列长度下,输入吞吐量可实现高达4 倍的速度提升,输出吞吐量可实现高达8 倍的速度提升。基准测试使用我们的 Falcon-H1 vLLM 实现和 Qwen2.5-32B 的官方 vLLM 实现运行。
这种性能提升凸显了 Falcon-H1 架构的可扩展性。我们将短上下文长度下的吞吐量差距归因于当前推理流水线中注意力机制的优化比当前状态空间模型 (SSM) 实现更成熟。
⚙️ 我们邀请社区为进一步优化 SSM 实现做出贡献——这是推进下一代高效 LLM 的一个有前途的方向。
🔎 注意: 输入吞吐量衡量模型读取/编码文本时处理令牌的速度。输出吞吐量衡量模型生成新令牌的速度。比例线显示 Falcon-H1/Qwen2.5 的性能比较。
开源承诺
秉承我们促进人工智能可访问性和协作的使命,Falcon-H1 在 Falcon LLM 许可下发布。我们希望人工智能社区能够发现这些模型对研究、应用开发和进一步实验具有价值。Falcon-H1 是我们为创建更强大、更高效的基础模型所做努力的延续。我们欢迎社区提供反馈并进行合作,因为我们将继续改进和提升这些模型的能力。
有用链接
- 通过Falcon-H1 HuggingFace 合集访问我们的模型(包括 GPTQ 和 GGUF)。
- 请访问我们的GitHub 页面,了解 Falcon-H1 模型的最新技术更新。
- 如果您有任何疑问或想与我们的研究人员和开发人员交流,欢迎加入我们的 Discord 服务器。
- 请查看Falcon-LLM 许可链接以获取有关许可的更多详细信息。
引用
@misc{tiifalconh1,
title = {Falcon-H1: A Family of Hybrid-Head Language Models Redefining Efficiency and Performance},
url = {https://falcon-lm.github.io/blog/falcon-h1},
author = {Falcon-LLM Team},
month = {May},
year = {2025}
}