RynnVLA-001: 使用人类演示改进机器人操作

社区文章发布于 2025 年 8 月 11 日

概述

我们推出 RynnVLA-001，这是一种基于大规模视频生成预训练的视觉-语言-动作模型。

RynnVLA-001 在 **约 1200 万个以自我为中心的操作视频** 上进行了预训练。
我们将 **下一帧预测** 和 **下一动作预测** 统一到一个单一的 Transformer 中。
我们训练了一个轻量级的 VAE，用于精确地 **将动作块压缩成动作嵌入**。
RynnVLA-001 在 **实际任务成功率** 和 **指令遵循能力** 方面均优于 Pi-0 和 GR00T-N1.5。

开源链接

预训练权重：https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base
微调代码：https://github.com/alibaba-damo-academy/RynnVLA-001

引言

得益于大规模数据集的可用性，在过去几年中，语言模型、多模态模型、视觉感知模型和生成模型都取得了快速进展。相比之下，机器人模型的发展仍然有限，这主要是由于大规模机器人操作数据收集费时费力。

在这项工作中，我们试图通过利用生成先验来缓解这一挑战。我们提出了 RynnVLA-001，一个简单而有效的视觉-语言-动作 (VLA) 模型，它建立在预训练的视频生成模型之上。RynnVLA-001 的关键在于隐式地将从以自我为中心的视频中学习到的人类演示操作技能转移到机器人手臂上。RynnVLA-001 的概述如下图所示。我们首先 **使用以自我为中心的操作视频训练一个视频生成模型**。然后，在此基础模型之上，我们将 **下一帧预测** 和 **下一动作预测** 统一到一个单一的 Transformer 中。

我们提出的 RynnVLA-001 能够使机械臂通过准确遵循高级语言指令成功执行复杂的抓取-放置和长程任务。

方法

阶段1：以自我为中心的视频生成模型

VLA 模型规模化面临的挑战在于，用于 VLA 训练的配对数据有限。在这项工作中，我们将视频生成模型中学习到的先验知识迁移到 VLA 模型中。在 VLA 模型设置中，动作是根据当前观测和语言指令进行预测的。为了模拟 VLA 模型的推理场景，视频生成模型应该是一个图像到视频（I2V）模型，它根据给定的图像预测未来的帧。我们采用基于自回归 Transformer 的架构进行视频生成。此外，动作的预测依赖于以自我为中心的视图的观测。为此，我们精心整理了 **1193 万个以自我为中心的人类操作视频** 用于训练。这些视频包含第一人称视角的人类操作，并侧重于手部操作。此外，我们还从开源数据集中筛选了 **24.4 万个机器人操作视频**。在此阶段，我们只使用视觉观测和语言指令，并特意省略任何相应的动作标签（例如关节状态或末端执行器位置），以迫使模型直接从像素中学习对物理动力学的隐式理解。

阶段2：用于压缩机器人动作块的 VAE

在 VLA 模型中，预测动作块（短序列动作）而非单步动作已被证明是有益的。这种设计选择是由两个关键因素驱动的：1）避免重复预测：单动作预测可能导致每一步的视觉变化微不足道，从而使模型重复输出相同的动作并陷入停滞。2）效率：一次预测多个动作可以减少计算开销。为了实现块级预测并保持动作平滑性，我们训练了一个轻量级的 VAE，将每个机器人动作块编码成一个紧凑且连续的嵌入。VLA 模型只需预测一个单一的嵌入向量，该向量可以解码成一系列连贯的动作。

阶段3：视觉-语言-动作模型

在最后阶段，我们通过集成基于 VAE 的动作表示，将预训练的以自我为中心的视频生成模型微调为 VLA 模型。在此阶段，我们将 **下一帧预测** 和 **下一动作预测** 统一到一个单一的 Transformer 中。模型被训练用于预测动作嵌入和视觉令牌。由于动作嵌入是连续的，我们需要一个单独的头部来预测动作嵌入。动作预测头部是一个轻量级的头部，只有一个线性层。动作头部的训练通过 L1 损失进行监督。此外，模型还经过优化以预测未来的视觉观测，这通过预测的视觉令牌与真实视觉令牌之间的交叉熵损失进行监督。

推理

在推理时，模型接收 RGB 观测和语言指令作为输入，并生成一个动作嵌入。该嵌入通过 VAE 解码器重构为一系列低级机器人动作。然后，机器人执行这些动作。在执行预测的动作块后，更新的观测值反馈回模型，该过程重复进行，直到任务完成。值得注意的是，在推理过程中，我们仅预测动作嵌入并放弃未来视觉令牌的预测以提高效率，因为预测大量视觉令牌的计算成本很高。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论