社区计算机视觉课程文档

视觉中的注意力保留

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

视觉中的注意力保留

什么是注意力保留网络

注意力保留网络 (RetNet) 是一种为大型语言模型提出的基础架构,在论文 Retentive Network: A Successor to Transformer for Large Language Models 中提出。这种架构旨在解决大规模语言建模领域的关键挑战:训练并行性、低成本推理和良好性能。

LLM Challenges RetNet 能够通过引入多尺度注意力保留 (MSR) 机制来应对这些挑战,该机制是 Transformer 模型中常用的多头注意力机制的替代方案。MSR 具有循环和并行双重形式,因此可以在并行方式下训练模型,同时循环地进行推理。我们将在后面的章节中详细探讨 RetNet。

多尺度注意力保留机制在三种计算范式下运行

  • 并行表示: RetNet 的这一方面设计类似于 Transformer 中的自注意力机制,它使我们能够有效地使用 GPU 训练模型。

  • 循环表示: 这种表示形式有助于以 O(1) 的内存和计算复杂度进行高效推理。它显著降低了部署成本和延迟,并通过消除传统模型中常用的键值缓存策略的需求,简化了实现。

  • 分块循环表示: 第三种范式解决了长序列建模的挑战。它通过并行编码每个局部块以提高计算速度,同时循环编码全局块以优化 GPU 内存使用来实现这一点。

在训练阶段,该方法结合了并行和分块循环表示,优化了 GPU 使用以实现快速计算,并且在计算效率和内存使用方面对于长序列特别有效。对于推理阶段,使用循环表示,有利于自回归解码。这种方法有效地减少了内存使用和延迟,同时保持了等效的性能结果。

从语言到图像

RMT

论文 RMT: Retentive Networks Meet Vision Transformers 提出了一种受 RetNet 架构启发的新的视觉骨干网络。作者提出了 RMT,通过引入显式的空间先验并降低计算复杂度来增强 Vision Transformer (ViT),灵感来自 RetNet 的并行表示。这包括将 RetNet 的时间衰减适应于空间域,并使用基于 曼哈顿距离 的空间衰减矩阵,以及注意力分解形式,以提高视觉任务的效率和可扩展性。

  • 曼哈顿自注意力 (MaSA) Attention Comparison MaSA 将自注意力机制与二维双向空间衰减矩阵相结合,该矩阵基于令牌之间的曼哈顿距离。该矩阵降低了远离目标令牌的令牌的注意力分数,使其能够感知全局信息,同时根据距离改变注意力。

  • 分解的曼哈顿自注意力 (MaSAD) MaSAD 这种机制沿着图像的水平和垂直轴分解图像中的自注意力,保持空间衰减矩阵,而不会丢失先验信息。这种分解允许曼哈顿自注意力 (MaSA) 以线性复杂度有效地建模全局信息,同时保留原始 MaSA 的感受野形状。

然而,与原始 RetNet 不同,原始 RetNet 使用并行表示进行训练,使用循环表示进行推理,RMT 使用 MaSA 机制进行这两个过程。作者对 MaSA 和其他 RetNet 的表示形式进行了比较,结果表明 MaSA 具有最佳吞吐量和最高精度。 MaSA vs Retention

ViR

ViR

另一项受 RetNet 架构启发的工作是 ViR,如论文 ViR: Vision Retention Networks 中所述。在该架构中,作者提出了一个通用的视觉骨干网络,并重新设计了注意力保留机制。他们证明,通过利用注意力保留网络的双重并行和循环特性,ViR 可以在图像吞吐量和内存消耗方面有利地扩展到更大的图像分辨率。

ViR 的总体架构与 ViT 的架构非常相似,只是它用多头注意力保留 (MHR) 替换了多头注意力 (MHA)。这种 MHR 机制没有任何门控功能,并且可以在并行、循环或分块(并行和循环之间的混合)模式之间切换。ViR 的另一个不同之处在于,位置嵌入首先添加到补丁嵌入中,然后附加 [class] 令牌。

延伸阅读

< > 在 GitHub 上更新