text-generation-inference 文档
Flash Attention
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Flash Attention
Transformer架构的扩展受到自注意力机制的严重瓶颈,自注意力机制具有二次时间复杂度和二次内存复杂度。加速器硬件的最新发展主要集中在增强计算能力,而不是内存以及硬件之间的数据传输。这导致注意力操作存在内存瓶颈。Flash Attention是一种注意力算法,用于减少此问题并更有效地扩展基于Transformer的模型,从而实现更快的训练和推理。
标准注意力机制使用高带宽内存(HBM)来存储、读取和写入键、查询和值。HBM内存大但处理速度慢,而SRAM内存小但操作速度快。在标准注意力实现中,从HBM加载和写入键、查询和值的成本很高。它将键、查询和值从HBM加载到GPU片上SRAM,执行注意力机制的单一步骤,将其写回HBM,并对每个注意力步骤重复此过程。相反,Flash Attention一次性加载键、查询和值,融合注意力机制的操作,然后将其写回。
它已针对支持的模型实现。您可以在此处查看支持Flash Attention的完整模型列表,其中包含以“flash”为前缀的模型。
您可以通过阅读此链接中的论文来了解更多关于Flash Attention的信息。
< > 在 GitHub 上更新