英伟达 GTC 2025 面向物理 AI 开发者的公告:新的开放模型和数据集

发布于 2025 年 3 月 18 日
在 GitHub 上更新
Humanoid pick and place
NVIDIA Isaac GR00T N1 用于物体操纵。

在年度 GTC 大会上,NVIDIA 发布了三项开创性的开源成果,旨在加速物理 AI 的发展。其中包括一套新的多控制器世界基础模型 (WFM) Cosmos Transfer,一个精心策划的物理 AI 数据集,以及首个用于通用类人机器人推理的开放模型 NVIDIA Isaac GR00T N1——这些成果代表了物理 AI 技术的一次重大飞跃,为开发者提供了强大的工具和资源,以推进机器人系统并增强自动驾驶技术。

新世界基础模型 - Cosmos Transfer

Cosmos Transfer 是 NVIDIA Cosmos™ 世界基础模型 (WFM) 的最新成员,它在生成虚拟世界场景方面引入了新的控制和准确度水平。

该模型具有 70 亿参数规模,利用多控制器根据结构输入引导高保真世界场景的生成,确保精确的空间对齐和场景构成。

工作原理

该模型通过为用于捕获模拟世界的每个传感器模态分别训练单独的 ControlNets 来构建。

3D bounding box map input Trajectory map input Depth map input Segmentation map input

输入类型包括 3D 边界框图、轨迹图、深度图、分割图。

  • 在推理时,开发人员可以使用各种输入类型,包括结构化视觉或几何数据,例如分割图、深度图、边缘图、人体运动关键点、LiDAR 扫描、轨迹、高清地图和 3D 边界框来引导输出。
  • 来自每个控制分支的控制信号乘以其对应的自适应时空控制图,然后求和,再添加到基础模型的 Transformer 模块中。
  • 生成的输出是具有受控布局、对象放置和运动的照片级视频序列。开发人员可以通过多种方式控制输出,例如保留结构和外观,或在保持结构的同时允许外观变化。
Output 1 Output 2 Output 3

Cosmos Transfer 在不同环境和天气条件下的输出。

Cosmos Transfer 与 NVIDIA Omniverse 平台相结合,正在大规模推动机器人和自动驾驶开发的可控合成数据生成。在 GitHub 上查找更多 Cosmos Transfer 示例

Cosmos Transfer 样本也已提供给自动驾驶车辆,这些样本是使用后训练基础模型构建的。

开放物理 AI 数据集

NVIDIA 还发布了 Physical AI Dataset,这是一个在 Hugging Face 上用于开发物理 AI 的开源数据集。这个商业级、预验证数据集包含 15 TB 数据,代表了超过 32 万条用于机器人训练的轨迹,以及多达 1000 个通用场景描述 (OpenUSD) 资产,包括 SimReady 合集。

该数据集旨在用于 Cosmos Predict 世界基础模型等后训练基础模型,为开发人员提供高质量、多样化的数据,以增强其 AI 模型。

专为类人机器人打造的模型 - NVIDIA Isaac GR00T N1

另一个令人振奋的公告是 NVIDIA Isaac GR00T N1 的发布,这是世界上第一个用于通用类人机器人推理和技能的开放基础模型。这个跨实体模型接受多模态输入,包括语言和图像,以在多样化环境中执行操作任务。NVIDIA Isaac GR00T-N1-2B 模型可在 Hugging Face 上获取。

Isaac GR00T N1 在一个广泛的类人数据集上进行了训练,该数据集包括真实捕获数据、使用 NVIDIA Isaac GR00T Blueprint 组件生成的合成数据以及互联网规模的视频数据。它可以通过后训练适应特定的实体、任务和环境。

Isaac GR00T N1 使用单个模型和一套权重来在各种类人机器人上实现操作行为,例如 Fourier GR-11X Neo。它在各种任务中表现出强大的泛化能力,包括单臂或双臂抓取和操作物体,以及在手臂之间转移物品。它还可以执行需要持续上下文理解和整合各种技能的复杂多步任务。这些能力使其非常适合物料搬运、包装和检测等应用。

Isaac GR00T N1 采用受人类认知启发的双系统架构,包括以下互补组件:

  • 视觉-语言模型(系统 2):这个有条不紊的思维系统基于 NVIDIA-EagleSmolLM-1.7B。它通过视觉和语言指令解释环境,使机器人能够推理其环境和指令,并规划正确的行动。
  • Diffusion Transformer(系统 1):这个动作模型生成连续动作来控制机器人的运动,将系统 2 制定的行动计划转化为精确、连续的机器人运动。

未来之路

后训练是推进自主系统、为下游物理 AI 任务创建专业模型的未来之路。

请访问 GitHub 查看 Cosmos PredictCosmos Transfer 推理脚本。查阅 Cosmos Transfer 研究论文以获取更多详细信息。

NVIDIA Isaac GR00T-N1-2B 模型可在 Hugging Face 上获取。使用自定义用户数据集进行后训练的示例数据集和 PyTorch 脚本(与 Hugging Face LeRobot 格式兼容)可在 GitHub 上获取。有关 Isaac GR00T N1 模型的更多信息,请参阅研究论文

关注 NVIDIA 在 Hugging Face 上获取更多更新。

社区

太酷了!

注册登录评论