将 Transformer 层作为 Painter 扩展到 DiT

社区文章发布于 2024 年 8 月 31 日

Naga Sai Abhinay Devarinti

NagaSaiAbhinay

这项实验的灵感来自 Sakana AI 和 Emergence AI 的“Transformer 层作为 Painter”^[1]。他们认为，由于残差连接，LLM 的层之间存在一个共同的表示空间。

我尝试对 Flux、SD3 和 AuraFlow 等扩散 Transformer 模型进行相同的复制。

该论文的主要问题是：

各层是否使用相同的表示空间？
所有层都是必需的吗？
中间层是否都执行相同的功能？
层序重要吗？
我们可以并行运行这些层吗？
某些任务的顺序比其他任务更重要吗？
循环有助于并行层吗？
哪些变体对性能的损害最小？

此处使用的术语：

此处所指的 Transformer 层或 MM-DiT 层具有两个流，分别用于处理文本嵌入和图像嵌入，同时还具有联合注意力机制。

单层或联合层同时处理编码器嵌入和图像嵌入，也称为 Flux 架构中列出的单流块。

根据余弦相似度将层分组为第一层、中间层和最后一层，如论文中所述。

实验中使用了以下层执行策略： 图 1：层执行策略

总结

Flux 显示出最显著的层分组（基于激活余弦相似度），表明存在共同表示空间的可能性，其次是 AuraFlow。但所有 3 个模型都显示出分组，表明存在共同表示空间。
一组层之前和之后的层似乎充当“转换”层，将模型表示从一个空间转换为另一个空间。这可以通过移除前面层会造成灾难性后果这一事实来证明。
与其它方法相比，从一组层中跳过某些层对图像质量的损害最小。这与论文的发现一致。
重复同一层是最糟糕的（除了移除不属于该组的所谓“转换”层）
反复并行执行层并平均它们的输出，对于那些关注提示一致性的层来说并非灾难性，但对于那些处理美学质量的层来说则是灾难性的。中间层反转也一样。

展开查看使用的提示

一位魅力四射的演讲者正在演讲中。他有一头棕色的短发，蓬乱的头顶略显凌乱。他有一张圆脸，刮得很干净，戴着深色边框的圆形方形眼镜，左手打着手势，生动活泼。他右手拿着黑色麦克风，热情洋溢地演讲。男子穿着一件浅灰色毛衣，里面套着白色 T 恤。他还戴着一条简单的黑色挂绳，挂绳的徽章上写着“Anakin AI”。在他身后，是一个模糊的背景，背景上有一面白色的横幅，上面印有徽标和文字（包括 Anakin AI），营造出专业的会议氛围。
一只戴着蓝色帽子的红狗和一只戴着粉色太阳镜的黄猫坐在一起
桌上的一台三星 LED 显示器屏幕显示着一幅花园图像，招牌上写着“一切都好”，桌上放着一个泰迪玩具，一只猫睡在泰迪玩具旁边，桌上放着一盘蘑菇菜，外面下着雨，一只鹦鹉坐在旁边的窗户上，窗外可见一张写有“享受生活”的柔性横幅，一个绿色的战争气球 3D 模型，部落冲突，奇幻游戏，正面视图，游戏资产，细节丰富，备战状态，照片般逼真，在战争环境中，春天，迪士尼风格，皮克斯风格
一张毛毡木偶立体模型场景的照片，描绘了一个僻静森林空地的宁静自然场景，其中有一个友好、圆润的大机器人，以版画风格呈现。一只猫头鹰坐在机器人的肩膀上，一只狐狸坐在它的脚边。柔和的色彩渲染、5 种颜色和明亮的调色板营造出一种宁静祥和的感觉，引人深思和欣赏自然之美。
金门大桥。