社区计算机视觉课程文档

视觉中的保留

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

视觉中的保留

什么是保留网络

保留网络 (RetNet) 是论文《保留网络:大型语言模型的 Transformer 后继者》中提出的一种用于大型语言模型的基础架构。该架构旨在解决大型语言模型领域的关键挑战:训练并行性、低成本推理和良好的性能。

LLM Challenges RetNet 通过引入多尺度保留 (MSR) 机制来应对这些挑战,该机制是 Transformer 模型中常用的多头注意力机制的替代方案。MSR 具有递归和并行的双重形式,因此可以并行训练模型,同时以递归方式进行推理。我们将在后面的章节中详细探讨 RetNet。

多尺度保留机制在三种计算范式下运行:

  • 并行表示: RetNet 的这一方面设计类似于 Transformer 中的自注意力,它使我们能够高效地使用 GPU 训练模型。

  • 递归表示: 这种表示有助于高效推理,其内存和计算要求为 O(1) 复杂度。它显著降低了部署成本和延迟,并通过消除传统模型中常用的键值缓存策略简化了实现。

  • 分块递归表示: 第三种范式解决了长序列建模的挑战。它通过并行编码每个局部块以提高计算速度,同时递归编码全局块以优化 GPU 内存使用来实现这一点。

在训练阶段,该方法结合了并行和分块递归表示,优化了 GPU 使用以实现快速计算,并且在计算效率和内存使用方面对长序列特别有效。在推理阶段,使用递归表示,有利于自回归解码。该方法有效地减少了内存使用和延迟,同时保持了相同的性能结果。

从语言到图像

RMT

论文《RMT: 保留网络与视觉 Transformer 的结合》提出了一种受 RetNet 架构启发的新视觉骨干网络。作者提出 RMT 通过引入显式空间先验并降低计算复杂度来增强 Vision Transformer (ViT),这借鉴了 RetNet 的并行表示。这包括将 RetNet 的时间衰减适应到空间域,并使用基于曼哈顿距离的空间衰减矩阵以及注意力分解形式,以提高视觉任务的效率和可扩展性。

  • 曼哈顿自注意力 (MaSA) Attention Comparison MaSA 将自注意力机制与基于令牌之间曼哈顿距离的二维双向空间衰减矩阵相结合。该矩阵会降低距离目标令牌更远的令牌的注意力分数,使其能够感知全局信息,同时根据距离改变注意力。

  • 分解曼哈顿自注意力 (MaSAD) MaSAD 这种机制将图像中的自注意力沿图像的水平和垂直轴分解,在不丢失先验信息的情况下保持空间衰减矩阵。这种分解允许曼哈顿自注意力 (MaSA) 以线性复杂度高效地建模全局信息,同时保留原始 MaSA 的感受野形状。

然而,与原始 RetNet 不同,原始 RetNet 使用并行表示进行训练,使用递归表示进行推理,而 RMT 使用 MaSA 机制执行这两个过程。作者对 MaSA 和其他 RetNet 表示进行了比较,结果表明 MaSA 具有最高的吞吐量和最高的准确性。 MaSA vs Retention

ViR

ViR

另一项受 RetNet 架构启发的工作是 ViR,如论文《ViR: 视觉保留网络》中所述。在该架构中,作者提出了一种具有重新设计的保留机制的通用视觉骨干网络。他们通过利用保留网络的双重并行和递归特性,证明 ViR 在图像吞吐量和内存消耗方面可以很好地扩展到更大的图像分辨率。

ViR 的整体架构与 ViT 非常相似,只是它用多头保留 (MHR) 取代了多头注意力 (MHA)。这种 MHR 机制没有任何门控函数,并且可以在并行、递归或分块(并行和递归的混合)模式之间切换。ViR 的另一个不同之处在于,位置嵌入首先添加到补丁嵌入中,然后附加 [class] 令牌。

延伸阅读

< > 在 GitHub 上更新