什么是 MoE 2.0？更新你关于专家混合模型的知识

社区文章发布于2025年4月27日

🔳 当前专家混合模型的新视角。我们探讨了 S'MoRE、Symbolic-MoE 等新 MoE 技术对下一代 AI 的意义

即使是最强大的技术，也需要重新思考以适应新的趋势。MoE 是一个引人入胜的框架，它重塑了我们构建和理解可扩展 AI 系统的方式。它迅速获得了关注，因为它能够实现模型的大规模增长——例如万亿参数模型——而不会给硬件带来过大的负担。MoE 之所以如此强大，在于它能够根据输入动态选择专家，从而使模型能够专注于不同的子领域或任务。它已经成为许多系统的支柱：DeepSeek-V3 采用令人印象深刻的 6710 亿参数 MoE；Google 的 Gemini 1.5 Pro 使用稀疏 MoE Transformer 有效处理百万上下文；Mistral 的 Mixtral 8×22B 在每层将 tokens 分配给 8 个专家，并在成本和速度上优于密集模型；阿里巴巴的 Qwen2.5-Max，一个在 20 万亿 tokens 上训练的 325B MoE，在聊天机器人竞技场中名列前茅，推理和编码能力突出；Meta 的 Llama 4 在其模型中引入了 MoE 架构，包括 400B 参数的 Maverick 和 2T 参数的 Behemoth，两者都旨在处理多模态和多语言任务。

我们开始了这套 AI 101 系列，解释了什么是专家混合模型 (MoE)。今天，我们将讨论**当前 MoE 发展中大多数读者尚未见过的全新视角**。为什么 MoE 突然再次火热起来？

目前，许多实验室讨论和行业路线图都围绕着下一代 MoE 设计展开。本月发布了两篇全新的论文：1）**残差专家结构化混合模型 (S’MoRE)** – Meta 在四月发布的论文，展示了如何将 LoRA 风格的低秩适配器与分层 MoE 树融合，引入了密集模型无法比拟的指数级“结构灵活性”增益；2）北卡罗来纳大学教堂山分校的**符号式 MoE** 将 MoE 从梯度空间转移到纯语言空间，其准确性优于 GPT‑4o‑mini，并且由于批处理推理，可以在单个 GPU 上运行 16 个专家。此外，还有一系列新的 MoE 发展优化了 MoE 模型的推理，例如 **eMoE**、**MoEShard**、**Speculative-MoE** 和 **MoE-Gen**。

这些创新方法能给我们带来哪些关于重新思考下一代 MoE 模型效率的启示？让我们深入分析这些发展有何特别之处，以及它们为何可能是开源模型扩展的最清晰路径。

欢迎来到 MoE 2.0！

📨 点击关注！如果你想直接在收件箱中接收我们的文章，请在此订阅

也请在 🎥 YouTube Twitter 上关注我们

在本期节目中，我们将讨论

残差专家结构化混合模型 (S’MoRE)
S’MoRE 是如何工作的？
S’MoRE 的性能
并非没有局限性
符号式 MoE
符号式 MoE 是如何工作的？
符号式 MoE 的结果和优势
局限性
这两种方法能为你带来什么？
MoE 2.0 的其他显著变化
结论：为什么这种新的 MoE 转变现在很重要？
来源和进一步阅读

残差专家结构化混合模型 (S’MoRE)

Meta AI 于 4 月 8 日发布了一种有效学习和微调 LLM 的新方法。他们将两种在 AI 领域可称为基础的技术：LoRA（低秩适应）和 MoE，进行了融合。这最终成为一个有趣的非平凡发展——**残差专家结构化混合模型 (S’MoRE)**。它将 LoRA 风格的低秩适配器与分层 MoE 树融合在一起。这使得两种方法都能受益——LoRA 带来的效率（因为所有内容都保持低秩），以及 MoE 带来的灵活性和能力，并附带一些额外的优势升级。让我们看看它们是如何协同工作的。

但首先，快速回顾一下 LoRA。它是一种轻量级且高效的微调 LLM 的方法，只需极少的额外参数和计算。LoRA 不会改变模型中数百万甚至数十亿的参数，而是冻结原始权重，并添加小的、可训练的层（以低秩矩阵的形式）来调整模型的行为。

S’MoRE 是如何工作的？

这是 S'MoRE 系统的完整工作流程

它将模型的“专家”分解为称为**残差**的微调层。每个残差都使用低秩更新来修改输入。
这些残差以**树状结构**连接，就像树的枝条一样，因此模型可以决定如何通过它们路由信息。
路由器将每个 token 沿动态选择的“残差专家”子树向下发送。S’MoRE 通过该树流动来计算输出。

通过混合和匹配树中的路径，S’MoRE 可以表现得像它拥有的专家比实际更多。S’MoRE 在层之间重复使用小模块，让不同的专家路径共享相同的构建块*（见下图左侧）*。

图片来源：S’MoRE 原始论文

关于 S’MoRE 中的路由还有更多。这是一个自上而下、逐步进行的过程，每个选择都有助于指导其下方的下一层。路由器使用一个小型神经网络（MLP），它“查看”

令牌本身（其嵌入），以及
来自上层残差的密钥，也称为父级辅助。

路由器使用此信息来计算哪些下层辅助（子级）最适合激活，根据之前选择的父级。

因此，S’MoRE 允许您获得数十个专家的能力，而只需实例化少量微小矩阵。**那么实际结果是什么呢？**

S’MoRE 的性能

在参数量与旧方法相同的情况下，S’MoRE 更加灵活和高效，有助于更好地微调 LLM。S’MoRE 在多项任务和模型（如 LLaMA-3 变体）上进行了测试，它在两个方面始终优于现有最佳模型：

准确率**更高**，提升高达 2.1%。
它使用**大约 16% 更少的可训练参数**，因为它只训练小型低秩矩阵和轻量级投影层。

S'MoRE 的其他优势包括：

结构灵活性：其树状多层结构允许模型以多种不同组合方式组合和重用小型专家片段。S’MoRE 既选择专家，也选择它们如何连接。这指数级地增加了有意义的专家组合数量。

图片来源：S’MoRE 原始论文

低计算开销：S’MoRE 的总计算成本几乎与 LoRA 相同，路由开销极小，通常低于 5-10%。即使使用 2-3 层专家，它也效率很高。因此 →
可伸缩设计：增加更多层通常会以较低的额外成本提升性能，仅为 1-7%。例如，从 2 层到 3 层，S’MoRE 在某些任务中实现了更好的准确性，同时将参数数量减少了 27%。
灵活的路由机制：S’MoRE 支持多种类型的门，例如密集、有噪 Top-K 和 Switch Transformer。

然而，S'MoRE 也有一些我们应该考虑的局限性。

并非没有局限性

架构复杂性增加：S’MoRE 更复杂的路由系统和多层结构相比简单的 LoRA 或扁平 MoE 模型更难实现和调优。
路由器增加了计算和内存成本，特别是在使用低秩设置时，路由变得相对更重要。
在更大的模型或实际应用中的性能**尚未完全测试**。
更深层次的 S’MoRE（3 层或更多层）的调优可能需要仔细的超参数搜索，这会增加开发成本。

无论如何，尽管存在这些局限性，S’MoRE 展示了如何通过“结构灵活性”将 MoE 提升到新的水平，这意味着我们如何巧妙地安排和使用模型的各个部分。这可能是让 LLM 在特定任务的微调方面做得更好，而无需更大更昂贵的模型的关键。

那么，符号式 MoE 又为我们带来了什么呢？

符号式 MoE

传统的 MoE 方法允许使用一组专业模型来结合它们的优势，但这需要从头开始重新训练它们，这既昂贵又不切实际。北卡罗来纳大学教堂山分校于 3 月 7 日提出了一种避免这种持续重新训练并有效混合多个模型输出的方法——**符号式 MoE**。

它根据每个查询的具体技能选择最佳专家，关注个体问题而不是整体任务。例如，如果一个问题是关于代数，它会选择代数专家，如果是关于概率，它会选择具有该技能的专家。它将查询分组，并在单个批次中为每个选定的模型运行所有查询。因此，符号式 MoE 无需重复加载模型，这使其更快且对资源要求更低。

结果是，Symbolic-MoE 可以在单个 GPU 上处理多达 16 个模型，甚至可以在需要时跨多个 GPU 进行扩展。

图片来源：Symbolic-MoE 原始论文

它为什么叫“符号式”呢？传统的 MoE 框架在模型的参数空间中运行，而**符号式 MoE 通过利用基于文本的推理来整合不同的模型响应，从而在输出空间中运行**。换句话说，它使用自然语言形式的符号表示来表示模型的专业知识。符号式 MoE 让我们想起了 Google 的 Jeff Dean 认为将是 AI 未来的模块化架构。

现在，让我们从技术角度探讨它是如何工作的。

符号式 MoE 是如何工作的？

符号式 MoE 的工作分为两个阶段：预处理和推理，以及最终答案的生成。让我们逐一分解每个阶段

预处理

在开始解决问题之前，符号式 MoE 会进行所有设置。它使用一小组验证问题和可用模型池。它针对这组验证问题运行每个模型，以创建**模型配置文件**，显示每个模型擅长什么（例如几何或生物学）。例如，某个模型的配置文件可能显示它在代数方面很强，但在化学方面较弱。

一个**“关键字 LLM”**为每个问题识别关键技能，例如数学问题的代数或微积分。

Symbolic-MoE 还根据其将不同专家答案组合成最终高质量响应的能力来选择**聚合器**。

图片来源：Symbolic-MoE 原始论文

推理

当出现新问题时，Symbolic-MoE 会“查看”模型配置文件，根据问题所需的技能，确定哪些专家最适合这项工作。

为每个模型计算**适宜性分数**，这有助于决定为该任务选择哪些模型。这个过程是动态的——每个新问题都会根据其特定需求获得一组不同的专家。**全局能力**确保为给定问题选择的模型不仅擅长所需技能，而且整体表现也强劲。

被选中的专家通过生成思维链（CoT）响应来产生他们的推理。然后，**聚合器**会接收这些推理输出，并将它们组合成最终答案。这种方法避免了模型之间多轮反复讨论的需要，从而使过程更快、更高效。

为了加快速度，Symbolic-MoE 使用了一个特殊技巧——**批量推理策略**。它不是为每个问题重复加载和卸载模型，而是将需要相同专家集的问题分组，并一次性处理所有这些问题。因此，每个模型在每个批次中只加载一次。这减少了加载模型所花费的时间，并有助于优化 GPU 内存的使用。

符号式 MoE 的结果和优势

通过自动为每个查询选择最佳专家和最佳聚合器，并采用批处理方法，Symbolic-MoE 优于需要更复杂多智能体讨论的现有系统，提供了更简单、更有效的解决方案。具体如下：

性能提升： Symbolic-MoE 在所有测试基准（如 MMLU-Pro、AIME、GPQA 和 MedMCQA）上的表现平均优于最佳多智能体基线 8.15%。其准确率甚至高于 GPT‑4o‑mini。

图片来源：Symbolic-MoE 原始论文

兼容更大的模型：Symbolic-MoE 主要使用 7-8B 参数的模型，其性能与更大的 70B 模型相当或甚至超越。这种效率使其可供硬件资源有限的用户使用。
效率：与 MoA (Mixture-of-Agents) 等多智能体基线相比，在单个 GPU 上运行时，它将运行时间减少了 44%。由于批处理推理，它可以在单个 GPU 上处理多达 16 个模型，甚至在需要时跨多个 GPU 进行扩展。在 4 个 GPU 上，它比 MoA 提速近 2 倍。
可扩展性：Symbolic-MoE 即使使用大量专家也能高效扩展。这还得益于批量推理策略，它减少了频繁加载和卸载模型的需要。
灵活性：这种方法是模块化的，允许它适应不同的任务而无需修改或重新训练模型。此外，随着新模型的引入，它可以轻松更新和适应，而无需从头开始重新训练。

然而，一如既往，并非一切都完美 →

局限性

符号式 MoE 仍然需要并行运行多个模型，这会**增加推理成本**。
依赖于技能推理：该系统使用一小组验证集来创建基于技能的模型配置文件，这依赖于技能推理机制“关键字 LLM”的质量。因此，不准确或训练不足的推理机制可能会损害专家选择和性能。
它也**受限于池中模型/专家的质量**。如果它们不够专业或缺乏所需的领域专业知识，该框架可能无法达到最佳性能。
处理大量模型池以识别最适合每个查询的专家可能会带来一些**开销**。

总的来说，符号式 MoE 展示了如何通过基于语言的推理收集模型技能专业知识，从而比传统的 MoE 系统（通常依赖于基于参数的选择）实现更高的效率。

这两种方法能为你带来什么？

这两种方法，S’MoRE 和 Symbolic-MoE，共同引入了三个正在受到关注的创新理念：

S’MoRE 的分层残差路由在不增加参数数量的情况下扩展了专家选择空间。
Symbolic-MoE 在查询时基于技能的招募只选择每个特定问题所需的专家。
GPU 友好的批处理/分片技巧保持低延迟，即使激活 10 个或更多专家。

还有其他迹象表明 MoE 正在进入新的增长阶段吗？

MoE 2.0 的其他显著变化

首先，我们来谈谈最近发布的顶级模型。是的，那就是**Meta 的 Llama 4 Scout 和 Maverick 模型**，它们因首次采用 MoE 架构而引人注目。MoE 方法使得 Llama 4 Scout 模型（拥有 170 亿个活动参数和 16 个专家）能够在单个 NVIDIA H100 GPU 上运行。除了性能提升之外，MoE 架构还具有潜在的成本降低优势。正如彭博社报道，Meta 将 MoE 视为在大规模推理任务中降低开销的主要策略，特别是在高性能应用中。

其次，持续关注优化 MoE 推理。来看看一些有趣的发展：

eMoE

eMoE 是由**弗吉尼亚大学**和**佐治亚理工学院**的研究人员推出的一种用于基于 MoE 的 LLM 的内存高效推理系统。它利用**预测模型根据重复出现的令牌到专家路由模式来预测未来输入所需的专家**，并仅预加载最有可能的专家。为了减少开销，eMoE 会每隔几个提示定期调用专家预测器。

它还利用了一个巧妙的技巧——**eMoE 根据任务的特定要求（如令牌生成长度和对专家路由的敏感性）调度任务**，以确保资源的最佳利用。

结果是，eMoE **将内存消耗减少了高达 80%**，同时保持了准确性，并**将推理延迟缩短了高达 17%**。

MoEShard

MoEShard 是由 EPFL 和麦吉尔大学的研究人员设计的推理系统，旨在解决 MoE 中跨多个 GPU 的负载不平衡问题。它采用了**张量分片**。这意味着专家矩阵在 GPU 之间进行分割，每个 GPU 包含每个专家的一部分，确保计算在 GPU 之间均匀分布。这也使得 MoEShard 能够保留所有令牌，不像其他方法为了减少内存使用而丢弃令牌。

与 DeepSpeed 等系统相比，MoEShard 可实现高达 **6.4 倍的首次令牌生成时间 (TTFT)** 提升。

DeepSpeed-MoE

微软的 DeepSpeed-MoE 已是经典范例，因为它早在 2022 年就已开发。它结合了多种技术，可有效处理大规模 MoE 模型：

金字塔残差 MoE (PR-MoE)：将残差连接与 MoE 层集成。通过在这些残差连接中维护关键参数并跨层共享权重，PR-MoE 在不损害质量的情况下将整体模型大小减少了高达 3 倍。
优化的推理系统包括**专家并行**、**张量切片**（将模型参数划分为更小、更易管理的片段）和**内存带宽管理**（优化 GPU 和内存之间的数据流）等功能。
学生混合（MoS）技术确保系统能够运行 MoE 模型的更小、压缩版本。

由于这些特性，DeepSpeed-MoE 实现了高达 **7.3 倍的推理延迟和成本降低**，并且比类似质量的密集模型**快 4.5 倍，便宜 9 倍**。但后来的 MoE 方法显著优于 DeepSpeed-MoE →

推测性 MoE (s-MoE)

华为技术的 s-MoE 旨在提高并行推理中的通信效率。它采用了两种机制：

推测性令牌混洗 (s-TS) 可提前预测令牌的路由路径，从而允许令牌提前混洗并发送到其最有可能的专家。这减少了路由期间 GPU 之间昂贵的通信需求。
推测性专家预分组（s-EG）：可能一起激活的专家被分组并放置在同一个 GPU 上，从而最大限度地减少跨设备通信并提高本地激活率。

该系统还使用**动态协同聚类**，根据预测的激活模式对令牌和专家进行分组。

所有这些共同作用，使得 s-MoE 能够最大限度地减少 GPU 间通信需求，实现**通信成本降低高达 75% 并减少延迟**。与 DeepSpeed-MoE 相比，它还将推理吞吐量显著提升了 2.37 倍。

MoE-Gen

爱丁堡大学的 MoE-Gen 也专注于在单个 GPU 上实现高吞吐量，以优化 MoE 模型的推理。它使用**基于模块的批处理**。MoE-Gen 不会一次性处理整个模型批次，而是将模型分成注意力模块和专家模块。它在主机内存中积累令牌并动态地将它们批处理以进行 GPU 处理，根据 GPU 功能调整每个模块的批次大小。

MoE-Gen 将键值 (KV) 缓存和模型参数卸载到主机内存，从而减少 GPU 内存压力，并允许使用更大的批次大小，这反过来又将吞吐量**提高了 8–31 倍**，优于 DeepSpeed-MoE 等其他方法。

MoE 推理优化方法的广泛应用证明，我们可以显著提高 MoE 模型效率，使其成为扩展 AI 系统的强大工具，同时降低资源消耗和计算成本，并使其运行更快。

结论：为什么这种新的 MoE 转变现在很重要？

如今，大型专有实验室正朝着万亿参数的“锯齿状”模型发展，其中每个令牌只有 1-2% 的正确参数被激活。与此同时，开源社区也在寻求类似的效率提升，但缺乏如此大规模训练的资源。随着这些公司继续押注扩展 AI 系统，MoE 为在不增加典型计算成本的情况下实现高性能提供了实用的解决方案。**S’MoRE 和 Symbolic-MoE 等技术**直接解决了这一挑战：它们允许您从一个较小的密集模型开始，例如 8B 参数，然后集成专门的低秩专家或插件模型，从而创建一个性能远超预期的强大系统——而无需庞大的 GPU 农场。

此外，随着许多开发人员将重心转向推理阶段及其效率，**eMoE**、**MoEShard**、**DeepSpeed-MoE**、**Speculative-MoE** 和 **MoE-Gen** 等方法正在推动 MoE 模型推理的边界。这些进步表明我们如何使基础 MoE 技术适应当前趋势。而且其潜力远未达到极限。

作者：Alyona Vert 编辑：Ksenia Se

来源和延伸阅读

来自 Turing Post 的资源

主题1：什么是专家混合模型 (MoE)？

📨 如果您想直接在收件箱中收到我们的文章，请在此订阅

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论