社区计算机视觉课程文档

视觉中的记忆

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

视觉中的记忆

什么是记忆网络

记忆网络 (RetNet) 是一种针对大型语言模型的基础架构,在论文 记忆网络:大型语言模型的Transformer继任者 中提出。这种架构旨在解决大型语言模型领域中的关键挑战:训练并行性、低成本推理和良好性能。

LLM 挑战 RetNet 通过引入多尺度记忆 (MSR) 机制来解决这些挑战,该机制是 Transformer 模型中常用的多头注意力机制的替代方案。MSR 具有递归和并行的双重形式,因此可以以并行的方式训练模型,同时以递归的方式进行推理。我们将在后面的章节中详细探讨 RetNet。

多尺度记忆机制在三种计算范式下运行

  • 并行表示:RetNet 的这个方面设计类似于 Transformer 中的自注意力,它使我们能够使用 GPU 有效地训练模型。

  • 递归表示:这种表示有助于高效推理,在内存和计算需求方面具有 O(1) 复杂性。它显著降低了部署成本和延迟,并通过消除传统模型中常用的键值缓存策略简化了实现。

  • 分块递归表示:这第三种范式解决了长序列建模的挑战。它通过并行地对每个局部块进行编码来实现计算速度,同时以递归方式对全局块进行编码以优化 GPU 内存使用情况。

在训练阶段,该方法结合了并行和分块递归表示,优化了 GPU 使用率以实现快速计算,在计算效率和内存使用方面对长序列特别有效。对于推理阶段,使用递归表示,有利于自回归解码。这种方法有效地减少了内存使用量和延迟,同时保持了相同的性能结果。

从语言到图像

RMT

论文 RMT:记忆网络遇见视觉Transformer 提出了一个受 RetNet 架构启发的新视觉主干。作者建议使用 RMT 来增强视觉 Transformer (ViT),通过引入显式空间先验并降低计算复杂性来实现这一点,并从 RetNet 的并行表示中汲取灵感。这包括将 RetNet 的时间衰减应用于空间域,并使用 基于曼哈顿距离的 空间衰减矩阵,以及注意力分解形式,以提高视觉任务的效率和可扩展性。

  • 曼哈顿自注意力 (MaSA) 注意力比较 MaSA 将自注意力机制与基于令牌之间曼哈顿距离的二维双向空间衰减矩阵结合起来。该矩阵降低了远离目标令牌的令牌的注意力分数,使其能够感知全局信息,同时根据距离改变注意力。

  • 分解曼哈顿自注意力 (MaSAD) MaSAD 该机制沿着图像的水平和垂直轴分解图像中的自注意力,在不丢失先验信息的情况下保持空间衰减矩阵。这种分解允许曼哈顿自注意力 (MaSA) 以线性复杂度有效地对全局信息进行建模,同时保留原始 MaSA 的感受野形状。

但是,与使用并行表示进行训练和使用递归表示进行推理的原始 RetNet 不同,RMT 使用 MaSA 机制执行这两个过程。作者对 MaSA 和其他 RetNet 表示进行了比较,结果表明 MaSA 在具有最高精度的同时具有最佳吞吐量。 MaSA 与记忆

ViR

ViR

另一个受 RetNet 架构启发的作品是 ViR,如论文 ViR:视觉记忆网络 中所述。在这种架构中,作者提出了一种通用的视觉主干,并重新设计了记忆机制。他们证明,ViR 可以通过利用记忆网络的双重并行和递归属性,在图像吞吐量和内存消耗方面有利地扩展到更大的图像分辨率。

ViR 的总体架构与 ViT 非常相似,只是它用多头记忆 (MHR) 代替了多头注意力 (MHA)。这种 MHR 机制不含任何门控函数,可以切换到并行、递归或分块(并行和递归的混合)模式。ViR 的另一个区别是位置嵌入首先添加到补丁嵌入中,然后添加 [class] 令牌。

进一步阅读

< > 在 GitHub 上更新