所有LLM都将是稀疏BitNet混合体

社区文章 2025年5月14日发布

Cody Steinmetz

量化

推理范式

状态空间模型

未来展望

参考文献

Cody Steinmetz

到2025年底，所有领先的开源大型语言模型（LLM）都将基于BitNet SSM-Transformer混合架构。也就是说，标准的LLM架构每个模型权重只需1.58比特，推理时每个token的时间也几乎保持恒定。这一非凡的主张源于2023年以来一直存在的趋势。在这篇文章中，我将深入探讨这些趋势，并揭示为什么语言模型的架构正在趋于此。

量化

这是近年来从事这些巨型模型工作的人都熟悉的一个术语，原因很充分。该技术已取得了显著进步，以至于以“全精度”运行这些模型根本没有意义。这个术语实际上曾意味着每个权重32甚至64比特！Google [1] 推广了使用更高尾数的BF16进行16位训练，从那时起，FP8预训练已成为大型实验室的标准做法。训练精度低于8比特似乎存在一个实际限制，但在那之前，实验室每次将精度减半时，计算速度都大致翻倍。

低精度计算除了其主要优势外，还能从两个方面获得加速。用于计算这些低精度数据类型的电路可以做得更小，并在芯片上更密集地封装，从而提高速度；将它们从GPU的VRAM（HBM）移动到SRAM进行计算的操作（通常是LLM推理的限制因素）也可以通过更小的数据得到缓解。这还不包括你可以在更小的GPU上容纳更大的模型这一事实。量化训练可以在预训练阶段直接提供这些好处——尽管这些小型模型的兴起主要是**训练后量化（PTQ）**的结果。

**PTQ** 方法在 2023 年左右随着 GPTQ[6] 和 AWQ[7] 等方法的出现而变得非常流行。这导致了 Huggingface Transformers 中标准化的格式，以及一个蓬勃发展的量化生态系统，开源爱好者在新模型发布数小时后就发布他们的量化版本。这些方法可以通过使用一小部分校准数据集，将大部分权重压低到 4 比特 (!)，同时对下游模型性能造成很小的损失。最近的尝试已能够将每个权重平均降低到 2 比特，通过将选定的“超级权重”[2] 保留未量化，并将其他权重压缩为 -1、0 或 1。实际上，语言模型可以以这样一种方式进行训练，即在推理过程中，所有线性权重都位于 {-1, 0, 1} 中，这通过一种称为**量化感知训练 (QAT)** 的技巧实现。

**QAT** 涉及在正向传播期间对权重进行量化，并使用一种称为“直通估计”（Straight-Through Estimation）的技巧，使梯度像没有量化一样流动。谷歌的 Gemma 模型采用了这种技巧来实现 4 **BPW** 版本，而 **BitNet** 则以其 1.58 位权重而闻名：log2(|{-1, 0, 1}|)。最近，我的团队发现，可以通过在层中添加额外的 RMSNorm 并使用直通估计来微调现有模型以适应 BitNet [3]。除了正常的计算和内存优势外，这组权重还能实现一些特殊功能。通过乘以 -1、0 或 1，您实际上分别执行了减法、无操作和加法。这使得您的密集矩阵乘法变为稀疏加法。**将量化推向极致，可以在不牺牲性能的情况下，通过专用硬件实现惊人的速度和能源节约 [4]。**

推理范式

**注意力机制**成为BitNet模型的主要瓶颈，实际上也是DeepSeek-R1等新型长上下文推理模型的主要瓶颈。在这种新的推理范式中，最关心的就是能够生成多长的思维链来解决问题。这个瓶颈促使DeepSeek将如此多的注意力投入到他们的**V3**架构中，该架构使用**多头潜在注意力（M**ulti-Head **L**atent **A**ttention）将注意力机制的表示压缩到潜在空间中。**MLA**允许您在GPU上存储更长的序列，并减少从内存发送**键（K）**和**值（V）**的时间。减少**KV**大小可以加速注意力瓶颈，并且与量化配合得非常好。**稀疏性**是DeepSeek的V3/R1模型中使用的另一个工具，**专家混合（M**ixture **o**f **E**xperts）允许您在处理任何特定token时仅激活总参数的**5.5%**！[4] 这种稀疏性与MLA的加速相结合，为拥有6710亿参数的模型提供了惊人的吞吐量，所有这些都不需要将模型量化到超过8 BPW。

量化和 MLA 带来的内存和计算减少可以在强化学习的主要瓶颈——推理过程中得到有效利用。RL 流水线的时间完全被缓慢的推理过程所主导，由于之前定义和解决的问题，推理通常受到内存的极大限制。像 Prime Intelect 的 Prime-RL 这样的新型 RL 流水线将推理和训练分离到不同的设备集之间。如果该流水线使用 BitNet 后端，推理速度可以通过带宽和计算改进而显著提高，并且只需将改变权重的差异（每个权重 2 位 + 权重索引）从训练设备传输到推理设备。这可能比当前设置效率高出几个数量级，并通过分布式训练设置实现。[8]

状态空间模型

一种称为状态空间模型（State Space Models，SSMs）的Transformer架构替代方案由于最近强化学习（RL）导致的上下文长度爆炸而重新受到关注。像 Mamba 这样的 SSM 的显著优点在于，其推理过程中计算和内存使用量相对于序列长度是恒定的，因为它具有固定大小的隐藏状态。这非常适合 DeepSeek-R1 生成的长推理序列。这一概念在论文“M1: 面向可扩展测试时间计算的 Mamba 推理模型”中得到了证明，其中 R1 的精炼 Llama 版本被“Mambified”，结果在**推理优化之前**推断速度提高了 3 倍。我认为这篇论文还提出了一个重要观点：基础模型中轻微的精度下降可以通过 RL 流水线中获得的优势迅速弥补——尤其当这与 BitNet 量化结合得如此完美时。FFN 和 Attention 争夺计算资源，当你优化其中一个时，另一个将主导延迟。通过同时优化两者，你可以在专用硬件上实现大约两个数量级的性能与功耗提升。

这种“Mambification”过程可以在 BitNet 主干网络上完成，从而形成一种实际上没有矩阵乘法的 LLM——在推理过程中只包含向量操作。Mambification 包括将现有的查询（**Q**ueries）、键（**K**eys）和值（**V**alues）线性层插入到 Mamba 架构中，并随机初始化 A 和 delta-t 参数。这些附加参数可以通过 QAT 转换为 BitNet 格式，而其他参数保持冻结，从而可以快速转换大型模型。其中一种技术是逐层知识蒸馏（Layerwise Knowledge Distillation），它使这个新的 Mamba 层的激活与 Transformer 版本的原始输出对齐。这可用于通过层流蒸馏（Layer Streaming Distillation）实现无瓶颈的分布式训练，这是我在密尔沃基工程学院开发的一种技术 [5]。

除了Mamba带来的纯粹性能优势之外，还有一个有趣且尚未充分探索的研究方向：隐藏状态本身的优化。这种推理模型的轻量级更新可以允许通过反向传播将探索分支结合成一个单一状态，以实现更有效的策略。隐藏状态也具有可移植性，这意味着它们的共享所需的带宽远低于模型权重更改所需的带宽。这一事实可用于模型对用户目标的广泛个性化/对齐，并可能成为Mamba模型的另一个杀手级用例。

未来展望

简而言之，我们所审视的每一个方向——激进的量化，最终达到 BitNet 的 1.58 BPW；将密集矩阵乘法变为近乎免费的加法的稀疏技巧；MLA 压缩注意力；MoE 门控；以及 Mamba 系列的与序列长度无关的状态空间——都汇聚到同一个目标：一个混合的 SSM-Transformer 堆栈，其权重以三元形式存在，其延迟由缓存命中而不是浮点运算决定。这就是为什么，到 2025 年底，默认的开源“基础模型”将不再像 2023 年代密集型 FP16 巨石那样；相反，它将是一个经过 BitNet-Mamba 化处理的主干，以恒定时间流经 RL 循环，通过商用链接传输权重补丁，并通过调整隐藏状态而不是数千兆字节的参数在设备上进行个性化。从现在开始的路线图是直接的：继续将 QAT 扩展到每个架构片段，完善层流蒸馏使其转换一键完成，并共同设计利用三元算术和稀疏内存流量的 ASIC。有了这些要素，所有领先的 LLM 都将是稀疏 BitNet 混合体的说法并非大胆——这只是我们已经加速前进的曲线上的下一个逻辑检查点。

参考

[1] Markham, N. & Patterson, D. **bfloat16: 云TPU高性能的秘密。** *Google Cloud Blog* (2019)。https://cloud.google.com/blog/products/ai-machine-learning/bfloat16-the-secret-to-high-performance-on-cloud-tpus

[2] Liu, S. *等。* **大型语言模型中的超级权重。** arXiv:2411.07191 (2024)。 https://arxiv.org/abs/2411.07191

[3] Xiao, S. **将LLM微调到1.58比特：极致量化轻松实现。** *Hugging Face Blog* (2024)。 https://huggingface.co/blog/1\_58\_llm\_extreme\_quantization

[4] Zhu, R.-J. *et al.* **可扩展的无矩阵乘语言建模。** arXiv:2406.02528 (2024)。 https://arxiv.org/abs/2406.02528

[5] Amin, D. **DeepSeek R1参数激活的颠覆性方法。** *LinkedIn Pulse* (2025)。 https://www.linkedin.com/pulse/deepseek-r1s-game-changing-approach-parameter-activation-danial-amin-vumlf

[6] Steinmetz, C. & Yoder, J. **层流蒸馏。** *2025年IEEE电气/信息技术国际会议（EIT）论文集*，第5A节 (2025)。 https://eit-conference.org/eit2025/session.php?pid=5A

[7] Frantar, E.、Ashkboos, S.、Hoefler, T. 和 Alistarh, D. **GPTQ：用于生成式预训练 Transformer 的精确训练后量化。** arXiv:2210.17323 (2022)。 https://arxiv.org/abs/2210.17323

[8] Lin, J. *et al.* **AWQ：用于LLM压缩和加速的激活感知权重量化。** arXiv:2306.00978 (2023)。 https://arxiv.org/abs/2306.00978

[9] Prime Intellect 团队。**INTELLECT-2：首个全球分布式32亿参数模型的强化学习训练。** *Prime Intellect 博客*，2025年4月15日。 https://www.primeintellect.ai/blog/intellect-2