每周机器人简报六月特刊 #3 - 窥探 SmolVLA 的大脑:注意力可视化解析
社区文章 发布于 2025 年 6 月 10 日
第 3 天 - 6 月 10 日
在离开键盘几天后,我终于有机会深入研究我一直渴望探索的东西:SmolVLA 中的注意力可视化。
a) 打开黑箱:理解注意力机制
Transformer 模型通常感觉像黑箱:输入进去,动作出来。但真正的魔力在于中间发生的事情——注意力权重。受到 Ville Kuosmanen 最近关于 ACT 中注意力可视化工作的启发,我过去几天深入研究了 SmolVLA,以了解它何时、何地以及为何关注。
我使用模型预训练数据集中的少量精选演示,记录了模型关键层中的注意力图。我的核心问题是:
当生成下一个动作时,SmolVLA“正在看”哪里?
为了回答这个问题,我首先关注了动作专家模块中的交叉注意力层。这些层将图像、文本和状态的拼接嵌入与嘈杂的动作标记连接起来。令人惊讶的是,与 ACT 不同,SmolVLA 似乎没有强烈关注图像标记。
以下是其中一个序列的快照:
可视化仍然处于实验阶段。虽然输出看起来很嘈杂,但我相信模型正在捕捉一些有意义的东西,我只是还没有找到提取它的最佳方法。我还尝试了可视化自注意力层,但结果同样不确定。
b) 一个开放性问题
我很好奇:还有其他人探索过 SmolVLA 或类似模型中的这种注意力映射吗?我很乐意比较笔记,看看其他人是否设法从噪声中获得更清晰的信号。
c) 接下来呢?
接下来的几天,我将继续探索注意力权重的可视化,可能会利用不同的技术并应用不同的处理方法。
如果您正在开发类似的可解释性工具,或者只是对这种模型内省感兴趣,我很乐意与您联系。让我们分享见解,并构建更好的工具来理解这些强大的系统。
下次再见 👋 — @Beeg_brain | huggingface.co/Beegbrain