LeRobot 社区数据集:机器人领域的“ImageNet”——何时以及如何实现?

发布于 2025 年 5 月 11 日
在 GitHub 上更新

🧭 内容摘要 — 为何写这篇博文?

在这篇文章中,我们将:

  • 认识到社区贡献的 LeRobot 数据集日益增长的影响力
  • 强调当前机器人数据收集与管理中存在的挑战
  • 分享旨在最大化这一集体努力影响力的实用步骤和最佳实践
    我们的目标是将泛化问题视为一个*数据问题*,并展示构建一个开放、多样化的“机器人学 ImageNet”不仅是可能的,而且已经正在发生。

引言

视觉-语言-动作 (Vision-Language-Action, VLA) 模型的最新进展使得机器人能够执行广泛的任务——从“抓住方块”这样的简单指令,到折叠衣物或清理桌子等更复杂的活动。这些模型旨在实现泛化:即在新的环境、面对未见过的物体以及在不同条件下执行任务的能力。

“机器人学最大的挑战不是灵活性,而是跨越物理、视觉和语义层面的泛化能力。”
— *Physical Intelligence*

机器人必须*“弄清楚如何在一个新的环境或面对新的物体时正确地完成哪怕一个简单的任务”*,这既需要强大的技能,也需要对世界有常识性的理解。然而,进展往往受限于为这类机器人系统提供多样化数据的可用性

“泛化必须在多个层面上发生。在低层面上,机器人必须理解如何拿起一把勺子(握住手柄)或一个盘子(抓住边缘),即使它以前从未见过这些特定的勺子或盘子,即使它们被放在一堆脏盘子里。在更高的层面上,机器人必须理解每个任务的语义——衣服和鞋子应该放在哪里(理想情况是洗衣篮或衣柜里,而不是床上),以及用什么样的工具来擦拭溢出物。这种泛化既需要强大的物理技能,也需要对环境有常识性的理解,这样机器人才能同时在物理、视觉到语义等多个层面上进行泛化。由于这类机器人系统可用的多样化数据有限,这使得任务变得更加困难。”
— *Physical Intelligence*

从模型到数据:转变视角

简而言之,通用策略的核心在于一个简单的理念:在异构数据集上进行联合训练。通过让 VLA 模型接触各种环境、任务和机器人形态,我们不仅可以教模型如何行动,还可以教它们*为什么*要这么做——如何解读场景、理解目标以及在不同情境下调整技能。

💡 “泛化不仅仅是模型的属性,它更是一种数据现象。”
它源于训练数据的多样性、质量和抽象层次。

这就引出了一个根本性的问题

基于当前的数据集,我们能期望的泛化能力上限是多少?

如果一个机器人在训练期间从未遇到过任何类似的任务,它能否有意义地响应一个全新的指令,比如“布置一个惊喜生日派对”?尤其是在大多数数据集都是在学术实验室中,由少数人在严格控制的设置下收集的情况下?

我们将泛化问题置于一个**以数据为中心的视角**:将其视为从数据中抽象出更广泛模式的过程——本质上是*“缩小视角”*以揭示与任务无关的结构和原则。这种视角的转变强调了**数据集多样性**在驱动泛化中的作用,而不仅仅是模型架构本身。

为什么机器人学领域还没有迎来它的“ImageNet 时刻”?

到目前为止,大多数机器人数据集都来自结构化的学术环境。即使我们扩展到数百万个演示数据,也常常会有一个数据集占主导地位,从而限制了多样性。与 ImageNet 不同——它聚合了互联网规模的数据,更全面地捕捉了真实世界——机器人学领域缺乏一个具有可比多样性的、由社区驱动的基准。

这主要是因为为机器人学收集数据需要**实体硬件和巨大的努力**。

构建 LeRobot 社区

正因如此,在 LeRobot,我们正努力让机器人数据收集变得更加触手可及——无论是在家、在学校,还是在任何地方。我们正在:

  • 简化录制流程
  • 简化上传到 Hugging Face Hub 的流程,以促进社区分享
  • 降低硬件成本

我们已经看到了成果:Hugging Face Hub 上社区贡献的数据集数量正在迅速增长。

Growth of <i>lerobot</i> datasets on the Hugging Face Hub over time

Hugging Face Hub 上 lerobot 数据集随时间的增长情况。

如果按机器人类型对上传的数据集进行细分,我们可以看到大部分贡献都集中在 So100 和 Koch 上,这使得机械臂和操作任务成为当前 LeRobot 数据集领域的主要焦点。然而,重要的是要记住,其潜力远不止于此。自动驾驶汽车、辅助机器人和移动导航等领域同样可以从共享数据中受益。这一势头让我们更接近一个未来:数据集反映的是全球性的努力,而不仅仅是单个实验室或机构的贡献。

Distribution of lerobot datasets by robot type

按机器人类型划分的 lerobot 数据集分布情况。

以下是几个杰出的社区贡献数据集,展示了机器人技术可以多么多样化和富有想象力

在 Hugging Face Hub 上通过 LeRobot 标签探索更多创意数据集,并在 LeRobot 数据集可视化工具中进行交互式查看。

负责任地扩展

随着机器人数据收集的日益大众化,**数据管理成为下一个挑战**。虽然这些数据集仍然是在受限的环境中收集的,但它们是迈向经济实惠、通用机器人策略的关键一步。不是每个人都能接触到昂贵的硬件——但通过**共享基础设施和开放协作**,我们可以构建出远为宏大的成果。

🧠 “泛化能力不是在实验室里解决的——它是由世界教会的。”
我们的数据越多样化,我们的模型就会越强大。


更好的数据 = 更好的模型

为什么数据质量如此重要?低质量的数据会导致下游性能不佳、输出带偏见以及模型无法泛化。因此,**高效和高质量的数据收集**在推进通用机器人策略中扮演着至关重要的角色。

虽然视觉和语言领域的基础模型得益于海量的网络规模数据集,但机器人领域缺乏一个“机器人互联网”——一个庞大、多样的真实世界交互语料库。相反,机器人数据分散在不同的机器人形态、传感器配置和控制模式中,形成了孤立的*数据孤岛*。

为了克服这一点,像 Gr00t 这样的最新方法将训练数据组织成一个**金字塔**结构,其中:

  • 大规模的网络和视频数据构成**基础**
  • 合成数据增加**模拟的多样性**
  • 位于**顶层**的真实世界机器人交互数据将模型与物理执行相结合

在这个框架内,高效的真实世界数据收集是不可或缺的——它将学习到的行为锚定在实际的机器人硬件上,并**弥合了模拟到现实的差距**,最终提升了机器人基础模型的泛化能力、适应性和性能。

通过扩大**真实世界数据集的规模和多样性**,我们减少了异构数据源之间的碎片化。当数据集在环境、机器人形态或任务分布方面不连贯时,模型很难在不同领域之间迁移知识。

🔗 真实世界的数据扮演着连接组织的角色——它将抽象的先验知识与具体的行动结合起来,使模型能够构建更连贯、更具可迁移性的表征。

因此,增加真实机器人交互的比例不仅仅是增强真实感——它在**结构上加强**了金字塔所有层次之间的联系,从而产生更稳健、更强大的策略。

Data Pyramid for Robot Foundation Model Training

机器人基础模型训练的数据金字塔。改编自 Gr00t (Yang et al., 2025)。数据量从下到上递减,而机器人形态的特异性则递增。


当前社区数据集的挑战

在 LeRobot,我们已经开始开发一个自动化的数据管理流程来后处理社区数据集。在后处理阶段,我们发现了一些可以改进的方面,以进一步提高数据集质量,并促进未来更有效的数据管理:

1. 任务标注不完整或不一致

许多数据集缺少任务描述,或者描述细节不足、含糊不清。语义是当前认知能力的核心,这意味着理解任务的上下文和具体细节对机器人的性能至关重要。详细的表述不仅能确保机器人准确理解期望,还能为认知系统提供更广泛的知识和词汇。模糊不清的描述可能导致错误的解读,进而导致错误的行动。

任务指令可能:

  • 为空
  • 过短(例如“Hold”、“Up”)
  • 没有任何具体含义(例如“task desc”、“desc”)

子任务级别的标注通常缺失,这使得对复杂任务层级的建模变得困难。
虽然这可以用视觉语言模型(VLM)来处理,但最好还是由数据集的作者提供任务标注。

2. 特征映射不一致

images.laptop 这样的特征标注含糊不清

  • 有时它是第三人称视角
  • 有时它更像是夹持器(手腕)摄像头

手动将数据集特征映射到标准名称既耗时又容易出错。
我们或许可以使用视觉语言模型(VLM)或计算机视觉模型来自动推断特征类型以对摄像头视角进行分类。然而,在收集数据时就注意这一点有助于得到更干净的数据集。

3. 低质量或不完整的片段

一些数据集包含:

  • 只有 1 帧或极少帧的片段
  • 手动删除的数据文件(例如,删除了 .parquet 文件但未重新建立索引),破坏了序列的连续性。

4. 动作/状态维度不一致

不同的数据集使用不同的动作或状态维度,即使是针对同一款机器人(例如 so100)。
一些数据集在动作/状态格式上存在不一致性。


何为优秀的数据集?

既然我们已经知道创建高质量的数据集对于训练可靠且具有泛化能力的机器人策略至关重要,我们在此列出了一份最佳实践清单,以帮助您收集有效的数据。

图像质量

  • ✅ 优先使用**两个摄像头视角**
  • ✅ 确保**视频拍摄稳定**(无抖动)
  • ✅ 保持**中性、稳定的光照**(避免过黄或过蓝的色调)
  • ✅ 确保**曝光一致**和**对焦清晰**
  • ✅ **主控臂不应出现在**画面中
  • ✅ **唯一移动的物体**应为从动臂和被操作的物品(避免出现人的肢体/身体)
  • ✅ 使用**静态、不分散注意力的背景**,或应用受控的变化
  • ✅ 以**高分辨率**录制(至少 480x640 / 720p)

元数据与录制协议

  • ✅ 在元数据中选择**正确的机器人类型**。如果您使用的是自定义机器人,且未在官方 LeRobot 配置注册表中列出,
    我们建议您查看 LeRobot Hub 上现有数据集中类似机器人的命名方式,以确保一致性。
  • ✅ 以大约**每秒 30 帧 (FPS)** 的速率录制视频
  • ✅ 如果**删除片段**,请确保**相应地更新元数据文件**(我们将提供适当的工具来编辑数据集)

特征命名规范

为所有摄像头视角和观测数据使用一致且易于理解的命名方案

格式

<modality>.<location>

示例

  • images.top
  • images.front
  • images.left
  • images.right

避免使用设备特定的名称

  • images.laptop
  • images.phone

对于手腕安装的摄像头,请指明方向

  • images.wrist.left
  • images.wrist.right
  • images.wrist.top
  • images.wrist.bottom

一致的命名提高了清晰度,并帮助下游模型更好地解释空间配置和多视角输入。

任务标注

  • ✅ 使用 task 字段**清晰地描述机器人的目标**
    • 示例: 拿起黄色的乐高积木并放入盒子中
  • ✅ 保持任务描述**简洁**(**25-50 个字符**之间)
  • ✅ 避免使用模糊或通用的名称,如 task1demo2 等。

下面,我们提供了一份清单,作为录制数据集的指南,列出了数据收集过程中需要注意的关键点。

Dataset Recording Checklist

图 4: 数据集录制清单 – 确保一致和高质量的真实世界数据收集的分步指南。

你能如何提供帮助?

下一代通用机器人不会由单一个人或实验室构建——它们将由我们所有人共同构建。无论你是学生、研究员,还是仅仅对机器人感到好奇,以下是你参与的方式:

  • 🎥 录制你自己的数据集 — 使用 LeRobot 工具从你的机器人上捕捉并上传高质量的数据集。
  • 🧠 提高数据集质量 — 遵循我们的清单,整理你的录制内容,并帮助制定机器人数据的新标准。
  • 📦 为 Hub 做出贡献 — 上传数据集,分享示例,并探索他人的成果。
  • 💬 加入对话 — 在我们的 LeRobot Discord 服务器上提供反馈、请求功能或帮助塑造发展路线图。
  • 🌍 壮大这场运动 — 将 LeRobot 介绍给你的俱乐部、课堂或实验室。更多的贡献者 = 更好的泛化能力。

开始录制,开始贡献——因为通用机器人的未来取决于我们今天构建的数据。

社区

非常有趣的文章。推进物理人工智能的数据发展,将需要学术界、机器人爱好者和开源社区之间的共同努力,以及数据收集公司的贡献,就像我们在人工智能领域看到的数据标注(例如 Scale AI、Labelbox)一样。这正是我们在 Deplace AI 所做的事情,为物理人工智能提供按需数据,我们也非常乐意为开源生态系统做出贡献。

充满洞见和智慧。非常棒。阐明这些想法和概念非常有价值,并且会得到回报。谢谢。

注册登录 以发表评论