关于编写你的第一个注意力模型

社区文章发布于 2024 年 4 月 21 日

虽然你可能不一定需要从头开始编写 Transformer 的注意力模块来理解其工作原理，但这绝对是你能最接近地从第一性原理理解 Transformer 行为方式的方法。

@karpathy 在他的 nanoGPT 视频中详细介绍了注意力机制（强烈推荐观看）。现在我想分享一些编写我的第一个注意力模型的心得和经验。

首先，让我们快速回顾一下 Transformer 中的注意力机制：Transformer 中的注意力机制是一种通信机制，它允许模型在进行预测时关注输入序列的不同部分。

它根据每个输入标记与当前上下文的相关性为其分配权重，使模型能够选择性地权衡信息。这种机制有助于 Transformer 有效地捕获长距离依赖关系和上下文信息。

官方的 AIAN 论文介绍了两种常用的注意力形式：缩放点积注意力（也称为自注意力）和由自注意力块组成的堆叠结构，称为多头注意力。

代码

现在，对于大多数深度学习算法来说，注意力机制归结为一个数学方程式。所以编写代码会变得非常简单，特别是使用像 PyTorch 这样的深度学习框架。下面是一个名为“单头注意力”的代码示例。

这段代码在 PyTorch 中定义了单头注意力——它转换输入向量，计算注意力分数和权重，然后根据这些权重计算值的加权和（根据注意力方程）。

当你将多个这样的注意力并行堆叠时，就得到了所谓的“多头注意力”。如果你继承自 SingleHeadAttention 类，这会使代码简单得多。

它创建了多个注意力（继承自 SingleHeadAttention 类）并将其并行堆叠。在正向传播过程中，它将每个头应用于输入张量 Q、K 和 V，连接输出，然后对其进行线性变换以生成最终输出。

所以，本质上，编写这段代码让我重新审视了一些关键的底层概念（PyTorch 的矩阵乘法、softmax、dropout，甚至反向传播），这有助于理清一些事情。这与 Karpathy 的 nanoGPT 视频一起塑造了我的理解——随着 Transformer 架构新形式的出现，我的理解仍在不断完善。

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论