Transformer 已过时：变体和替代方案纷纷涌现！

社区文章发布于 2025 年 7 月 5 日

作者：ProCreations Development

如果你一直在与传统 Transformer 搏斗，它们就像一个饥饿的少年闯入冰箱一样吞噬着你的 GPU 内存，或者你厌倦了等待冗长文档处理结果的漫长等待，那么你并不孤单。好消息是？人工智能领域一直在忙着研究一些非常巧妙的替代方案，它们或许能解决你的烦恼。

始于 2017 年的 Transformer 革命正在显露出其年代感。 尽管这些模型改变了人工智能，并为我们带来了 ChatGPT，但它们有一些烦人的缺点：它们是内存大户，处理长文本时速度会变得非常慢，而且对于许多任务来说，它们可能是杀鸡用牛刀。但研究人员并没有闲着——他们创造了一个完整的替代方案生态系统，这些方案更快、更高效，有时甚至更智能。

内存问题确实存在

在我们深入探讨替代方案之前，先来谈谈为什么传统 Transformer 就像那位总是点菜单上最贵菜的朋友。传统 Transformer 使用一种叫做“注意力”的机制——本质上，句子中的每个词都必须“关注”所有其他词来理解上下文。这听起来很合理，直到你意识到对于一篇 1,000 字的文档，这意味着 1,000 × 1,000 = 1,000,000 次计算。对于一篇 10,000 字的文档呢？那将是 1 亿次计算。计算量很快就会变得非常庞大。

这种二次方增长意味着你的内存使用和处理时间会随着文档的增长而呈爆炸式增长。这就像试图进行一场对话，每个人都必须在说话之前与其他人握手——对于小组来说没问题，但在体育场里就会变得一团糟。

新秀登场：状态空间模型

Mamba：内存效率冠军

Mamba 不仅仅是一种致命的蛇——它还是最有前途的 Transformer 替代品之一。你可以把 Mamba 看作是拥有非常好的记忆力，而不是试图同时记住所有事情。传统 Transformer 就像试图同时记住你所有对话一样，而 Mamba 更像是拥有一个智能助手，它会记录重要的东西，然后忘记其余的。

Mamba 的独特之处

线性扩展：处理时间和内存随文档长度呈比例增长，而非指数增长。
恒定内存：无论是处理 100 字还是 100,000 字，内存使用量都相同。
吞吐量快 5 倍：处理相同大小的模型比传统 Transformer 快得多。
百万级 Token 序列：能够处理传统 Transformer 会崩溃的超长文档。

Mamba 的巧妙之处在于其“选择性”方法。它不是每个词都关注所有其他词，而是维护一个重要的压缩摘要，并随着处理的进行而更新。这就像有一个非常好的笔记员，知道该写什么，该跳过什么。

Mamba 的优势应用场景

长文档（例如整本书或研究论文）
实时聊天应用
基因组学和 DNA 分析
任何内存不足的情况

缺点是什么？ Mamba 在复杂推理任务上表现不佳。它就像对事实有照片记忆，但在逻辑谜题上却很吃力。这就是为什么许多研究人员正在创建混合模型，将 Mamba 的效率与传统注意力相结合以进行推理。

混合方法：两全其美

Jamba（由 AI21 Labs 创建）就像 AI 模型中的瑞士军刀——它结合了 Mamba 的效率和 Transformer 模块的复杂推理能力。这是一个拥有 520 亿参数的模型，可以在单个 GPU 上处理 256,000 个 token。这就像将一个小型图书馆装进你笔记本电脑的内存里。

这些混合模型通过将 Mamba 用于繁重工作，将传统注意力用于思考部分，从而获得最佳结果。这就像有一个速读高手，同时也能解决填字游戏。

线性注意力：让 Transformer 瘦身成功

cosFormer：数学魔术师

cosFormer 是某些巧妙数学运算的成果。它没有使用昂贵的注意力机制，而是使用了一种名为“余弦重加权”的方法——想象一下，如果派对上的每个人都不需要和每个人打招呼，而是根据彼此的相似程度挥手致意。

cosFormer 的魔力

长序列的内存减少 10 倍
根据文档长度，处理速度快 2-22 倍
保持质量：达到传统 Transformer 92-97% 的准确率
线性复杂度：处理时间随文档长度合理增长

这项技术创新实际上以其简洁性而著称。传统 Transformer 使用一种计算成本高昂的复杂数学函数，称为“Softmax”。cosFormer 发现如何使用基本三角函数来近似它——这与你在高中学到的数学相同，但应用得非常巧妙。

非常适合：长文档处理、流媒体应用程序以及任何需要 Transformer 般质量但又不想内存爆炸的场景。

Performer：近似艺术家

Performer 就像一位技艺高超的艺术家，无需描绘每一个细节，就能勾勒出人物的精髓。它使用“随机特征”来近似注意力机制——听起来很复杂，但实际上非常巧妙。

可以这样理解：Performer 不计算每个词对之间的精确关系，而是利用数学技巧，通过一小组固定的特征来估计这些关系。这就像使用较小的样本来预测较大群体的行为。

Performer 的独门绝技

处理超长序列时比传统 Transformer 快 4,000 倍
保持传统 Transformer 92-97% 的准确率
可与现有模型配合使用：通常无需重新训练即可替换
突破性成果：在蛋白质序列建模方面取得了令人印象深刻的成果

Linformer：压缩专家

Linformer 发现了一个惊人的事实：Transformer 中的大多数注意力矩阵都是冗余的。这就像你发现一张巨大的电子表格大部分都是空单元格或重复信息。Linformer 通过只关注必要的连接来压缩这些庞大的注意力表。

压缩魔术

内存减少 76%，同时保持性能
在标准基准测试中，达到 RoBERTa 性能的 99%
易于实现：易于集成到现有系统中
已投入生产：为 Meta (Facebook) 的内容分析提供支持

FNet：频率斗士

FNet 是个叛逆者，它完全抛弃了注意力机制，取而代之的是信号处理中的傅里叶变换。这就像音频工程师分析声波一样，它分析文本中模式的“频率”。

FNet 的速度魔鬼资质

训练速度比传统 Transformer 快 80%
极低的内存占用：几乎不使用内存
无学习参数：混合机制仅为数学运算，而非学习权重
无参数：使其效率极高

权衡是什么？FNet 为了速度牺牲了一些准确性，但对于许多任务来说，这是一个值得的权衡。这就像选择摩托车而不是汽车——你牺牲了一些舒适性，但获得了巨大的速度。

成熟的替代方案：久经考验

Reformer：内存优化器

Reformer 是 Google 早期解决 Transformer 内存问题的尝试。它引入了两个巧妙的技巧：使用“哈希”快速查找相似词（而不是将所有内容与所有内容进行比较），以及“可逆层”，这显著减少了训练期间的内存使用。

Reformer 的创新

长序列的内存减少 10 倍
高效处理 64,000 个 token
局部敏感哈希：将相似词分组以进行高效处理
可逆层：更有效地存储激活

你可以把哈希方法想象成整理图书馆——与其检查每本书以找到相关的书，不如先按类别组织它们。

BigBird：稀疏注意力专家

BigBird 意识到注意力不必是全有或全无的。它创建了一种“稀疏注意力”模式，结合了：

随机注意力：连接到随机词以获取全局上下文
局部注意力：关注附近的词
全局注意力：一些特殊词汇，所有人都会关注

这就像一场社交活动，你和身边的人聊天，也和一些随机的人聊几句，再听听主讲人的演讲——你不需要和每个人都聊过才能了解活动的要点。

BigBird 的优势

比 BERT 处理长 8 倍的序列
线性复杂度：随长度合理扩展
理论完备：已被证明与完整注意力机制一样强大
生产就绪：用于长文档处理

Longformer：滑动窗口方法

Longformer 采用“滑动窗口”注意力模式——每个词都关注其周围固定数量的词，就像一场对话中，你只听身边的人说话，但对话信息在群体中流动。

Longformer 的实用方法

处理 4,096 个 token：高效处理长文档
可配置注意力：您可以选择哪些词获得全局注意力
即插即用替代品：可替代 BERT 风格模型
临床应用：用于医学文本分析

Switch Transformer：专家系统

Switch Transformer 引入了“专家混合”概念——它不是一个庞大的模型做所有事情，而是创建了多个专家。这就像拥有一支专家团队，每个输入都被路由到正确的专家那里。

Switch Transformer 的规模

1.6 万亿参数，同时保持恒定计算量
训练速度比密集模型快 7 倍
专家专业化：不同的专家学习不同类型的模式
大规模扩展：实现巨型模型而无需指数级成本

缺点是什么？它的实现异常复杂，需要复杂的 инфраструктура。

性能实测

谈到实际性能，情况是微妙的。以下是基准测试的实际结果：

内存效率冠军

Mamba：内存减少 7.8 倍，单个 GPU 上可处理 140K 上下文
Jamba：256K 上下文，仅需 4GB KV 缓存
cosFormer：长序列内存减少 10 倍
Linformer：内存减少 76%，同时保持质量

速度狂魔

FNet：训练速度比 Transformer 快 80%
Performer：处理超长序列时快 4,000 倍
Mamba：吞吐量比同类 Transformer 高 5 倍
Jamba：吞吐量比同类模型提高 3 倍

质量保持者

cosFormer：达到 Transformer 准确率的 92-97%
Linformer：达到 RoBERTa 性能的 99%
Performer：保持 92-97% 的准确率
Mamba 混合模型：在大多数任务上与 Transformer 具有竞争力

那么，你到底应该用什么？

实话实说，这取决于你的具体情况：

如果你正面临内存限制：选择 Mamba 或 cosFormer。它们能为你节省大量内存，同时保持合理的质量。

如果你需要极致的速度： FNet 或 Performer 是你的最佳选择，特别是当你能容忍轻微的质量下降时。

如果你正在处理超长文档： Mamba、BigBird 或 Longformer 都是专门为此设计的。Mamba 处理的序列最长，但 BigBird 和 Longformer 可能更容易实现。

如果你想要最稳妥的选择： 混合模型，如 Jamba 或 cosFormer，能在不牺牲过多质量的前提下提高效率。它们就像可靠的中间地带。

如果你正在处理复杂的推理任务： 坚持使用 Transformer 或 混合方法。Mamba 等纯替代方案在复杂逻辑推理方面表现不佳。

未来是混合的

最令人兴奋的趋势是混合架构的出现，它结合了不同方法的优点。就像现代汽车结合了电动机和内燃机一样，未来的人工智能模型很可能将 Transformer 的推理能力与状态空间模型的效率结合起来。

当前混合模型的成功案例

Jamba：Transformer + Mamba + 专家混合
Griffin：循环层 + 局部注意力
Mamba-Transformer 混合模型：Mamba 用于处理，Transformer 用于推理

这些混合模型正在实现一项了不起的成就：Transformer 级别的质量与状态空间模型的效率。这就像鱼与熊掌兼得。

总结

Transformer 短期内不会消失——它们在太多方面都表现出色。但如果你正苦于内存限制、长文档处理缓慢，或者只是想要更高效的替代方案，那么现在有了比以往更好的选择。

关键点在于？ 不要以为你必须坚持使用传统的 Transformer。根据你的用例，Mamba、cosFormer 或混合方法等替代方案或许能解决你的问题，同时为你节省金钱和烦恼。

Transformer 革命只是个开始。我们现在正处于“优化时代”，研究人员正在为特定工作创造专业工具。这就像拥有一把瑞士军刀和拥有一个合适的工具箱之间的区别——有时你需要为正确的工作选择正确的工具。

开始尝试这些替代方案吧——你的 GPU 内存（和你的耐心）会感谢你的。Transformer 的替代方案不再仅仅是学术上的好奇，它们是解决我们许多人每天面临的实际问题的实用解决方案。

准备好深入了解了吗？大多数这些替代方案都有开源实现，许多都可以在 Hugging Face 上找到。人工智能的未来比以往任何时候都更高效、更易访问、更多样化。

社区

abrahamn

7 月 7 日

写得太棒了！我一直想知道为什么 softmax 无处不在，而傅里叶变换却存在了这么久。

greattkiffy

大约 1 个月前

很棒的文章。我希望看到更多想深入学习这些内容的参考文献。

ProCreations

文章作者大约 1 个月前

Mamba：https://arxiv.org/abs/2312.00752 , https://arxiv.org/abs/2405.21060
Jamba：https://arxiv.org/abs/2403.19887
cosFormer：https://arxiv.org/abs/2202.08791
Performer：https://arxiv.org/abs/2009.14794
Linformer：https://arxiv.org/abs/2006.04768
FNet：https://arxiv.org/abs/2105.03824
Reformer：https://arxiv.org/abs/2001.04451
BigBird：https://arxiv.org/abs/2007.14062
Longformer：https://arxiv.org/abs/2004.05150
Switch Transformer：https://arxiv.org/abs/2101.03961
Griffen：https://arxiv.org/abs/2402.19427

AGIArchitect

25 天前

好文章！

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论