Transformer 中的叠加:构建专家混合模型的新方法

社区文章 发布于 2025 年 1 月 4 日

忘记灾难性遗忘:叠加将彻底改变我们微调大型语言模型的方式

摘要

灾难性遗忘仍然是大型语言模型(LLM)适应新任务或领域时的主要挑战。我们引入了“Transformer 中的叠加”(Superposition in Transformers),这是一种新颖的架构,它利用自编码器在共享参数空间中叠加基础模型和微调模型的隐藏表示。通过基于 B 样条的混合系数和自编码器(根据输入数据分布自适应地重建隐藏状态),我们的方法有效地缓解了灾难性遗忘,并开创了一种“模型内”叠加的新范式。

解决方案:叠加——在共享空间中融合思维

Transformer 中的叠加采用了一种截然不同的方法。它不是添加新的层或聘请更多专家,而是巧妙地将基础模型和微调模型的知识融合在同一组参数中。这就像让你的医生能够无缝地在全科医生和心脏病专家思维之间切换,在正确的时间获取正确的知识。

其工作原理简述如下:

1 — 用 B 样条融合,而不是替换:该论文引入了一种使用 B 样条的数学技术,以逐层平滑地融合两个模型的内部表示(隐藏状态)。想象它就像一个调光开关,在两种“专家”状态之间平滑过渡。

2 — 自编码器用于重建和多语义性:在模型的关键点插入自编码器。这些组件在以下方面发挥着关键作用:

  • 混合状态细化:自编码器重建混合隐藏状态,确保保留基础和微调表示中的关键特征。这使得模型能够动态适应特定的输入域。
  • 鼓励多语义性:通过瓶颈路径压缩和重建隐藏状态,自编码器促进了分布式表示。这种机制促进了能够处理多任务或多领域的多语义神经元。2D 变体引入了双路径自编码器,强调局部和全局特征提取,进一步增强了多语义性。

3 — 更智能地训练,而不是更努力地训练:只训练混合系数和自编码器,而原始模型的权重被冻结。这意味着你只添加了少量新信息,而不是覆盖已有的信息。

修改后的 GPT-2 架构: 修改后的 GPT-2 架构

结果:两全其美

该论文通过将标准 GPT-2 模型(全科医生)与针对法语文本进行微调的版本(专家)合并,证明了这种方法的有效性。结果令人瞩目:

  • 不再遗忘:合并后的模型在英语和法语任务上都表现良好,保留了两个原始模型的优势。专家并没有忘记如何说英语!合并后的模型优于线性插值和任务算术方法,困惑度为 47.01,而线性插值和任务算术方法的困惑度分别为 60.29 和 61.30。下一个词预测准确性也得到了显著提升。

  • 高效紧凑:与 MoE 相比,叠加增加的开销非常小,使其在实际应用中具有实用性。

  • 多语言神经元:有趣的是,合并后的模型开发了“多语义”神经元——单个神经元可以响应英语和法语中的概念。这表明了一种更高效、更集成的知识表示方式。

  • 动态表示切换:t-SNE 等可视化技术揭示了模型根据输入语言重建特定领域隐藏状态的能力。

    • 英语输入:合并模型重建的隐藏状态与基础模型的隐藏状态紧密聚类,表明模型能够恢复英语文本的基础表示。

    • 法语输入:重建的隐藏状态与微调模型对齐,反映了对法语文本的有效适应。

Hidden states reconstruction - Layer 6 With Autoencoders

  • 隐藏状态轨迹评估:为了进一步分析模型行为,使用主成分分析(PCA)评估了跨层的隐藏状态轨迹。提取第 3 到第 7 层的隐藏状态并将其投影到 2D 空间中,揭示了:

    • 独特的轨迹:基础模型、微调模型和合并模型在 PCA 空间中表现出独特的路径,其中合并模型在两个领域之间动态转换。

    • 改进的轨迹稳定性(2D 变体):PCA 分析表明,2D 变体稳定了隐藏状态轨迹,最大程度地减少了域之间的突然偏移。

Hidden states trajectories

2D 变体架构分析

Transformer 中的叠加的 2D 变体引入了增强的混合机制和双路径自编码器,强调局部和全局特征提取。

___*_ 架构亮点

  • B-样条 Alpha 模块:此模块计算逐层、维度特定的混合系数。这些由 B-样条形成的系数允许对混合过程进行细粒度控制,适应不同任务和输入数据的细微差别。
  • 正则化:平滑度、中心性和偏差方差损失确保混合系数保持可解释和有效。
  • 双路径自编码器
    • 全局路径:低秩适配器捕获全局特征,强调整体上下文。
    • 局部路径:卷积层提取局部特征,细化任务特定表示。
    • 重建:解码器结合这些路径,确保准确恢复混合隐藏状态。
  • 集成到 Transformer 堆栈中:合并后的模型使用来自 alpha 模块的混合隐藏状态,并通过第 4 到 11 层的自编码器对其进行细化。超出此范围的层依赖于直接混合,以保持计算效率。

存储库概述

  1. 1D-Alpha_Variant_LayerBias_LinearConv.ipynb
    演示使用标量 α 值对每一层进行“1D-alpha 模型”

    • 基于 B 样条的 α 混合实现
    • 自编码器用于重建基础/微调隐藏状态
    • 英语-法语适应的困惑度和准确性指标
  2. 2D-Alpha_Variant_LayerBias_ResLinearAdapter-Conv.ipynb
    探索每个维度的基于向量的 α 的“2D-alpha 模型”

    • 局部(卷积)和全局(适配器)自编码器路径
    • 多语义神经元分析和多任务表示
    • 隐藏状态的 t-SNE 可视化
  3. Benchmarks_1DAlpha_LayerBias_ConvLinear.ipynb

    • 与基线的性能比较
    • 困惑度和 Jensen-Shannon 散度分析
    • 与线性插值方法的直接比较

超越语言:模块化人工智能的新方法

虽然最初的实验侧重于语言,但叠加的含义要广泛得多。该论文提出了以下潜力:

  • 创建多才多艺的模型:将 LLM 与编码、数学甚至情商方面的专业专家融合,创建真正多功能的 AI。
  • 动态切换:开发能够在单次对话中无缝切换不同思维模式的模型,就像人类专家一样。例如,一个模型可以使用其符号推理模块解决一个数学方程,然后使用其通用知识解释解决方案的实际应用,所有这些都在一个流畅的响应中完成。
  • 资源效率:训练紧凑的辅助模块同时保持主模型冻结,确保了可伸缩性和资源效率。
  • 持续学习:轻松地用新技能和知识更新模型,而无需从头开始重新训练,使其在不断发展的世界中保持相关性。

未来是叠加的

Transformer 中的叠加不仅仅是一个巧妙的技术技巧。它代表了我们构建和适应 LLM 方式的根本性转变。它是我们看待模型适应性和效率的新视角。通过拥抱叠加和模块化的原则,我们可以创建不仅更强大,而且更具适应性、更高效,最终在学习和推理能力上更像人类的 AI 系统。通过在共享空间中混合表示并实现动态重建,这种方法为新时代的人工智能系统奠定了基础,这些系统能够无缝地集成和保留多样化的知识领域。

社区

注册登录 发表评论