理解 Mixtral-8x7b

社区文章 发布于 2024 年 1 月 5 日

这篇博客文章改编自我发布的一篇X 线程。它引起了很大的兴趣,所以我决定也发布在这里!

MistralAI 的 Mixtral-8x7b 是一种 LLM,其性能超越了除 OpenAI 和 Anthropic 最强大模型之外的所有模型。而且,它是开源的。在这篇博客文章中,我将使用我的神经电路图解释其架构设计。让我们深入了解尖端变压器的工作原理吧!

image/png来自 LMSys 的聊天机器人竞技场。Mixtral-8x7b 非常非常出色。您可以在竞技场中亲自尝试!

整体架构结构出奇地简单。它是一个仅解码器变压器。模型输入是一系列标记,这些标记被嵌入到向量中,然后通过解码器层进行处理。输出是每个位置被某个词占据的概率,从而实现文本填充和预测。

image/png整体模型将标记转换为向量,进行处理,然后转换回词概率。

每个解码器层都有两个关键部分:一个注意力机制,它融入了上下文信息;以及一个多层感知器,它单独处理每个词向量。

这些都封装在残差连接中,这使得深度训练成为可能。上下文处理和个体处理的结合使得复杂的模式得以发现。

image/png解码器层类似于原始变压器的,但只使用自注意力。

所用的注意力机制类似于原始变压器的,我在论文中详细介绍过,并在YouTube 视频中简要提及。我在图中列出了其他关键特性,这些特性也在原始 GitHubHugging Face 文档中有所涵盖。

下图未明确显示的一个关键特性是FlashAttention,由Hazy Research开发,它通过分解注意力以适应 GPU 内核,从而实现高速内存访问,加速了算法。我一直在使用“神经电路图”来推导这类技术。它们自然地显示了内存中的显式变量、线性和广播,提供了加速算法所需的正式工具。

image/png自2017年《注意力就是你所需要的一切》普及以来,注意力机制逐渐演变。

最后,我们来到 Mixtral 的关键特性:**稀疏专家混合** (SMoE)。MLP 层是计算资源的巨大消耗者。SMoE 拥有多个可用层(“专家”)。对于每个输入,都会对最相关专家的输出进行加权求和。因此,SMoE 层可以在计算成本相对较低的情况下学习复杂的模式。

image/png门控机制决定执行哪些层,从而实现计算效率高的算法。另请参阅Switch TransformersMegaBlocks

**结论。** Mixtral 是开源 AI 社区的一项巨大成就。该模型出人意料地简单。与原始 Transformer 架构相比,编码器已被移除。注意力机制经历了七年的逐步创新。最大的变化是存在 SMoE 而不是普通 MLP。Mixtral 已经证明,开源设计和 SMoE 处于机器学习发展的前沿,我猜测两者都将因此吸引更多的关注。

image/png整体注意力架构,使用神经电路图表示。

社区

注册登录以评论