视觉中的注意力保留

什么是注意力保留网络

注意力保留网络 (RetNet) 是一种为大型语言模型提出的基础架构，在论文 Retentive Network: A Successor to Transformer for Large Language Models 中提出。这种架构旨在解决大规模语言建模领域的关键挑战：训练并行性、低成本推理和良好性能。

LLM Challenges RetNet 能够通过引入多尺度注意力保留 (MSR) 机制来应对这些挑战，该机制是 Transformer 模型中常用的多头注意力机制的替代方案。MSR 具有循环和并行双重形式，因此可以在并行方式下训练模型，同时循环地进行推理。我们将在后面的章节中详细探讨 RetNet。

多尺度注意力保留机制在三种计算范式下运行

并行表示： RetNet 的这一方面设计类似于 Transformer 中的自注意力机制，它使我们能够有效地使用 GPU 训练模型。
循环表示： 这种表示形式有助于以 O(1) 的内存和计算复杂度进行高效推理。它显著降低了部署成本和延迟，并通过消除传统模型中常用的键值缓存策略的需求，简化了实现。
分块循环表示： 第三种范式解决了长序列建模的挑战。它通过并行编码每个局部块以提高计算速度，同时循环编码全局块以优化 GPU 内存使用来实现这一点。

在训练阶段，该方法结合了并行和分块循环表示，优化了 GPU 使用以实现快速计算，并且在计算效率和内存使用方面对于长序列特别有效。对于推理阶段，使用循环表示，有利于自回归解码。这种方法有效地减少了内存使用和延迟，同时保持了等效的性能结果。

从语言到图像

RMT

论文 RMT: Retentive Networks Meet Vision Transformers 提出了一种受 RetNet 架构启发的新的视觉骨干网络。作者提出了 RMT，通过引入显式的空间先验并降低计算复杂度来增强 Vision Transformer (ViT)，灵感来自 RetNet 的并行表示。这包括将 RetNet 的时间衰减适应于空间域，并使用基于曼哈顿距离的空间衰减矩阵，以及注意力分解形式，以提高视觉任务的效率和可扩展性。

曼哈顿自注意力 (MaSA) MaSA 将自注意力机制与二维双向空间衰减矩阵相结合，该矩阵基于令牌之间的曼哈顿距离。该矩阵降低了远离目标令牌的令牌的注意力分数，使其能够感知全局信息，同时根据距离改变注意力。
分解的曼哈顿自注意力 (MaSAD) 这种机制沿着图像的水平和垂直轴分解图像中的自注意力，保持空间衰减矩阵，而不会丢失先验信息。这种分解允许曼哈顿自注意力 (MaSA) 以线性复杂度有效地建模全局信息，同时保留原始 MaSA 的感受野形状。

然而，与原始 RetNet 不同，原始 RetNet 使用并行表示进行训练，使用循环表示进行推理，RMT 使用 MaSA 机制进行这两个过程。作者对 MaSA 和其他 RetNet 的表示形式进行了比较，结果表明 MaSA 具有最佳吞吐量和最高精度。 MaSA vs Retention

ViR

另一项受 RetNet 架构启发的工作是 ViR，如论文 ViR: Vision Retention Networks 中所述。在该架构中，作者提出了一个通用的视觉骨干网络，并重新设计了注意力保留机制。他们证明，通过利用注意力保留网络的双重并行和循环特性，ViR 可以在图像吞吐量和内存消耗方面有利地扩展到更大的图像分辨率。

ViR 的总体架构与 ViT 的架构非常相似，只是它用多头注意力保留 (MHR) 替换了多头注意力 (MHA)。这种 MHR 机制没有任何门控功能，并且可以在并行、循环或分块（并行和循环之间的混合）模式之间切换。ViR 的另一个不同之处在于，位置嵌入首先添加到补丁嵌入中，然后附加 [class] 令牌。

延伸阅读

< > 在 GitHub 上更新

社区计算机视觉课程

视觉中的注意力保留

什么是注意力保留网络

从语言到图像

RMT

ViR

延伸阅读