主题 24:Cosmos World Foundation Model 平台是什么?

社区文章 发布于 2025 年 1 月 23 日

世界模型是实现物理 AI 的下一件大事。让我们探讨 NVIDIA 如何实现它


🔳 Turing Post 在 🤗 Hugging Face 上驻扎 -> 点击关注!


我们最近讨论了物理 AI 以及 Jensen Huang 通过智能体 AI 实现这一愿景。物理 AI 的核心是指能够理解和与物理世界交互的系统,利用传感器驱动的智能体、机器人和物理模拟平台等先进技术。尽管仍处于早期阶段,但对智能体和机器人日益增长的关注标志着朝着这一宏伟愿景取得了有意义的进展。

但这一进展取决于**世界基础模型(WFMs)**的开发——经过训练以模拟真实世界环境并预测文本、图像或视频输入结果的 AI 系统。这些模型是创建物理感知视频的关键,使 AI 能够更好地理解物理世界并与之交互。在这方面还有很多问题需要解决!

就在两周前,NVIDIA 不仅发布了一个模型,还发布了整个生态系统——他们称之为 **Cosmos**。这个新平台,包括三个 WFM,也已开源(更确切地说,它在 NVIDIA 开放模型许可下可用)。

即使你不是在构建机器人,理解塑造物理 AI 的技术(例如 NVIDIA 的 Cosmos)也很重要。为什么?因为这些创新正在重写 AI 系统如何学习、交互和解决现实世界问题的方式。从更智能的自动化到开创性的模拟,其涟漪效应将触及 AI 的各个角落。让我们深入探讨其组成部分,并探索它为 AI 领域,特别是物理 AI 所带来的变革潜力。

在本期节目中,我们将讨论


您喜欢 Turing Post 吗?——> 点击“关注”!并订阅以直接发送到您的收件箱 -> https://www.turingpost.com/subscribe


什么是物理 AI?快速回顾

让我们从基本概念开始,以澄清 Cosmos WFM 平台的工作原理。**物理 AI 是指配备传感器感知环境并配备执行器与环境交互并改变环境的 AI 系统。**具身 AI 智能体和机器人是该领域的主要示例,旨在处理对人类来说危险、耗尽或重复的任务。

尽管 AI 在许多领域取得了快速进展,但物理 AI 却落后了。**掌握物理现实的复杂性仍然是一个非凡的挑战**,需要系统不仅能够处理大量的感官数据,还能够在动态环境中做出智能决策。

实现物理 AI 的关键一步是开发智能体 AI——具有为具身 AI 提供动力所需的认知和决策能力的自主系统。这些系统弥合了感知和行动之间的差距,从而实现了与物理世界更复杂的交互。

一个主要障碍是物理 AI 训练数据的收集困难。现实世界的实验通常是危险、昂贵和耗时的,需要详细的观察和行动序列。**解决这一挑战的一个有希望的解决方案在于世界基础模型(WFMs)** →

世界基础模型(WFMs)

世界基础模型 (WFM) 是物理世界的数字复制品,物理 AI 可以在其中安全地学习和实践。一些 WFM,如 Google DeepMind 的 Genie 2 和由李飞飞共同创立的 World Labs 的 AI 系统(我们在其中一篇 FOD 中讨论过),使用图像或文本,这意味着它们可以从单个图像或文本提示生成 3D 环境。它们提供了与这些环境和对象交互的能力,甚至可以添加物理效果。

**Cosmos 世界基础模型平台**,则专注于视觉 WFM,它使用视频来模拟和训练 AI 系统。但 WFM 一般是如何工作的呢?

WFM 可以预测世界上接下来会发生什么。它使用过去的观察结果 x(o:t)(在 Cosmos WFM 的情况下,它是一个视频)和一个称为扰动的变化或动作 c(t) 来预测未来的观察结果 x(t+1)。例如,如果你向模型展示一个球滚动的视频(过去的观察结果),并告诉它有人会推球(扰动),它会预测球接下来会如何移动。

image/png 图片来源:原始论文

以下是 WFM 一般优势的总结:

  • 它们节省了训练时间和资源。
  • WFM 为 AI 系统提供了安全高效的训练场,使其能够学习如何在各种情况下行动。
  • WFM 为训练 AI 系统创建逼真的合成数据,以训练广泛的动作。

现在,是时候回到 Cosmos WFM 平台并探索其功能和能力了。

Cosmos WFM 平台如何运作?

NVIDIA 提供了一个简单的图表,展示了 Cosmos 平台的组成。它包括用于创建、训练和使用物理 AI 的 WFM 的工具和模型

image/png 图片来源:原始论文

  1. **视频策展器:** 从大型数据集中提取高质量、动态的视频片段,用于训练 WFM。它删除重复项,以确保训练数据集多样且紧凑。
  2. **分词器:** 将视频数据压缩成“令牌”(小而易于管理的数据块),同时保留重要细节。这使得训练更快、更高效。
  3. **预训练 WFM:** 使用两种主要方法
  • **扩散模型**:逐步将嘈杂的视频模拟细化为逼真的视频。
  • **自回归模型**:逐步构建视频序列。这些模型在庞大的视频数据集上进行训练,以学习世界运行的一般模式。它们都依赖令牌来管理计算复杂性。
  1. **后训练 WFM:** 针对特定任务微调预训练 WFM,例如模拟机器人运动、在虚拟世界中导航或自动驾驶。
  2. **防护:** 该系统确保模型避免有害的输入和输出,在使用过程中保护开发人员和系统。

让我们按顺序讨论所有内容。

视频策展器

如前所述,创建高质量的训练数据是 WFM 的主要目的。这就是为什么视频数据策展步骤对于整个系统至关重要。

NVIDIA 开发了一条管道,用于提取高质量、动态的视频片段(从 2000 万小时的视频中提取 1 亿个片段),用于训练模型。

image/png 图片来源:原始论文

此管道的工作原理如下:

  1. 它从**收集原始视频**开始,这些视频来自专有收藏和公开可用的互联网视频,具有不同的质量、格式和内容,例如驾驶、手物交互、人类活动、导航、自然等。
  2. **分割视频:** 算法使用颜色或运动等视觉特征检测场景变化。小于 2 秒的片段将被删除,而大于 60 秒的片段将被分割为最长 60 秒。视频还会被重新编码为高质量的 MP4 格式。
  3. **过滤:** 此步骤用于提高数据集的质量。
    • **运动过滤:** 移除静态或不规则移动的片段,并根据相机平移或缩放标记片段。
    • **质量过滤:** 丢弃质量差(模糊、曝光过度)的视频,只保留视觉上吸引人的内容。
    • **叠加文本过滤:** 消除带有额外文本(字幕或图形)的视频,这些文本可能会干扰学习。
    • **视频类型过滤:** 将数据集集中在有用内容上,例如人类动作,同时避免不太相关的类别,例如动画或抽象视觉效果。
  4. **添加注释:** 视频内容的描述有助于 AI 模型理解和学习数据。这就是为什么 VILA 13B VLM 用于在每个片段中生成字幕。
  5. **删除重复项:** 视频按视觉内容进行聚类,删除重复项以保留每个片段的最高质量版本。
  6. **分片:** 处理后的片段被分组到“分片”或数据包中,并按分辨率和长度排序。这使得数据集易于用于训练。

最终结果是一个精心策划、多样化和干净的数据集,其中包含预训练数据(用于广泛模型训练的通用片段)和微调数据(用于专业任务的高质量片段)。

Cosmos Tokenizer

NVIDIA 专门设计了 Cosmos Tokenizer 来处理图像和视频的连续和离散分词。它遵循**编码器-解码器设计**。

image/png 图片来源:原始论文

Cosmos Tokenizer 有何特别之处?

  • **压缩:** 数据在空间(降低分辨率)和时间(减少帧数)上都进行了压缩。
  • **小波变换:** 通过去除冗余像素信息来简化视频输入,使数据更容易进行因果降采样。
  • **因果降采样:** 按顺序处理帧,从过去到现在,不依赖未来帧,这对于现实世界中的 AI 应用至关重要。
  • **高级层:** 该架构使用因果时间卷积和注意力层来保持编码和解码过程中视频帧的自然顺序。
  • **时空卷积:** 捕获数据中的空间(图像)和时间(时间)模式。
  • **自注意力机制:** 帮助模型关注跨帧的重要细节。
  • **残差块:** 在输入和输出令牌之间添加快捷连接,以改善梯度流和训练稳定性。

这些特性和架构带来了 **Cosmos Tokenizer 的高效率:**

  • 即使在更高的压缩比(8 × 8 × 8, 8 × 16 × 16)下,**它也保持了优于其他分词器的质量。**在 16 × 16 下,它的图像质量通常与竞争对手的 8 × 8 相当甚至超越。
  • 它比其他分词器**快 2~12 倍**。
  • 它**使用更少的参数**,使其轻巧高效。
  • Cosmos Tokenizer 在图像和视频的细节保留和流畅性方面优于以前的分词器。

现在我们已经到达了系统的核心部分——WFMs。

预训练 WFMs

Cosmos 平台的预训练 WFM 是强大的视频生成和预测工具。它们同时使用先进技术——**扩散和自回归建模**——以利用各自的优势。

扩散 WFMs

扩散 WFMs 擅长生成高质量、逼真的输出,并具有平滑的过渡。**以下是 Cosmos 扩散 WFM 组件逐步协同工作的方式:**

image/png 图片来源:原始论文

  1. 模型首先使用 Cosmos Tokenizer **压缩输入视频**,将视频转换为紧凑的潜在表示。

  2. **添加高斯噪声**到潜在表示中,模拟模型“去噪”和细化的缺陷。

  3. **3D 分块:** 将噪声潜在表示分成更小的 3D 块(数据立方体)以简化处理。

  4. 模型通过**多层**处理这些块,其中包括

    • **自注意力:** 帮助模型关注视频中的重要细节。
    • **交叉注意力:** 集成输入文本中的信息以指导视频生成。
    • **前馈 MLP 层:** 在每个步骤中细化特征。
    • **自适应层归一化:** 通过调整数据的缩放、偏移和门控来确保稳定高效的学习。
  5. 处理后,细化的潜在表示通过分词器的解码器,重建最终的高质量视频。

扩散 WFM 还采用了 **3D 旋转位置嵌入 (RoPE)**,这使得模型能够无缝处理不同视频长度、分辨率和宽高比。

**提示升采样器**将简单提示转换为详细描述,确保生成的视频符合用户意图并增强视觉细节。

Cosmos 扩散 WFM 有两种配置

  • Text2World 模型:使用交叉注意力层根据文本提示生成视频。
  • Video2World 模型:扩展现有视频或预测未来帧。它们结合了初始视频和描述性提示,以实现更丰富的预测。

Cosmos 扩散 WFM 的结果

它有两种尺寸:Cosmos-1.0-Diffusion-7B 和 14B 模型。它们都生成高质量、逼真的视频,但与 7B 模型相比,14B 模型在捕获复杂场景和保持运动稳定性方面表现出色。

基于扩散的 WFM 版本生成了具有平滑运动动态和与文本提示准确对齐的逼真视频。

image/png 图片来源:原始论文

自回归 WFMs

自回归模型在逐步预测方面更高效,使其适用于顺序任务。Cosmos-1.0-Autoregressive-Video2World 模型通过结合输入视频和文本提示来生成未来视频帧。

它的工作原理如下:

image/png 图片来源:原始论文

  1. **输入视频**使用 **Cosmos Tokenizer** 的编码器进行编码,将其转换为离散的标记。**文本提示**使用 **T5 文本编码器**进行处理,将其转换为嵌入,从而指导视频生成过程。
  2. 视频标记被转换为学习到的嵌入以进行进一步处理。每个 transformer 块使用
  • **3D 位置嵌入:** 包括绝对和旋转(RoPE)嵌入,以捕获视频中的空间和时间关系。
  • **自注意力:** 关注视频标记中的重要模式。
  • **交叉注意力:** 交叉注意力层通过将文本嵌入与视频标记集成,从而使文本引导视频生成能够使输出与输入提示对齐。
  • **MLP(两层前馈网络):** 细化处理后的信息。
  1. **输出重建:** 处理后的嵌入通过 Cosmos Tokenizer 解码器转换回视频帧,根据输出标记重建视频。

为了生成细节清晰、伪影最少的视频,可以将**扩散解码器**添加到架构中。它将离散标记转换为高质量的连续表示,解决了激进分词压缩(尤其是在大型自回归 WFM 中)导致的模糊输出问题。

模型变体包括

  • 具有 4B 和 12B 参数的基础模型。
  • Video2World 模型,例如 Cosmos-1.0-Autoregressive-13B-Video2World,是文本引导变体。它们源自基础模型,包括用于文本条件作用的交叉注意力层。

这些模型展示了以下结果:

  • 更大的模型(如 13B-Video2World)生成的视频具有更好的运动一致性和更丰富的细节。
  • 较小的模型(如 4B)速度更快,但可能难以处理复杂任务。

还发现了一些**局限性**:

  • 文本条件模型(Video2World)中的文本输入可能不总是强烈影响生成,因为模型的训练重点是视频预测任务。
  • 偶尔,物体可能会意外出现,例如“突然冒出来”。

image/png 图片来源:原始论文

Cosmos WFMs 有多好?

**任何 WFM 的主要目的是模拟真实世界,对吗?**这意味着需要测试 WFM 生成逼真且符合物理原理的视频的能力。WFM 的评估侧重于两个方面:**3D 一致性和物理对齐。**

  1. **3D 一致性**显示生成的视频在多大程度上保持逼真的 3D 结构和几何形状。它包括**几何一致性**,使用 Sampson 误差和相机姿态成功率评估对 3D 几何的遵守程度,以及**视图合成一致性**,评估新视角的帧准确性。那么 Cosmos WFM 的能力如何?**Cosmos WFM 在几何和视图合成一致性方面都优于 VideoLDM 等基线模型。**它们在相机姿态估计和合成视图质量方面实现了接近真实世界视频的结果。

image/png 图片来源:原始论文

  1. **物理对齐**衡量生成的视频在多大程度上符合物理定律,例如重力和运动动力学。它还测试模型是否可以根据观察到的场景预测现实结果。**Cosmos WFMs 显示以下结果:**
  • 基于扩散的 WFM 在像素级指标方面表现更好,渲染出比自回归 WFM 更高质量的视觉效果。
  • 更大的模型可以生成更好的视觉细节,但不一定更好地符合物理定律。
  • Cosmos WFM 存在**常见问题**,例如物体消失或变形,以及违反物理定律,例如不合理的运动或忽略重力。

image/png 图片来源:原始论文

物理 AI 应用中后训练世界基础模型的实现

现在,我们回到 Cosmos 平台方案,其中第四阶段是“后训练 WFM 样本”。我们已经提到 Cosmos WFM 可以进行微调以支持各种应用。以下是 NVIDIA 测试的三个示例:

  1. **相机控制:** 微调 Cosmos WFM 可以实现相机控制,从而从单个图像创建 3D 可导航世界,生成 3D 一致且时间连贯的逼真透视视频。用户可以通过向前、向后移动相机或左右旋转相机来交互式地探索模拟世界。AI 智能体可以根据相机移动预测变化。与最先进的相机可控视频生成模型 CamCo 相比,**Cosmos WFM 提供了卓越的视频质量和相机轨迹重新估计精度,并且能很好地推广到新的轨迹和数据分布。**它还可以生成多样化的输出,模拟来自相同输入的多个可能的未来。

  2. 机器人操作

Cosmos WFMs 可以通过预测指令或动作的视频输出来进行机器人操作的微调,从而有助于任务规划和模拟。

  • 在基于指令的视频预测中,输入是视频帧和文本指令,输出是机器人遵循指令的预测视频。
  • 在基于动作的下一帧预测中,机器人动作向量取代文本指令来生成下一视频帧,显示动作结果。处理动作序列允许模型创建机器人完成任务的完整视频。Cosmos 两个模型都优于基线,其中扩散模型获得了人类评估者 **78.3% 的偏好**。预测的视频帧与真实情况高度匹配,展示了模型的精度。

image/png 图片来源:原始论文

  1. 自动驾驶

Cosmos 微调 WFM 还可以生成逼真、一致且受控的**多视图驾驶场景。**它从六个摄像头视图(前、后、左、右、后左、后右)生成视频,并模仿自动驾驶汽车的摄像头设置。它可以生成符合指定车辆轨迹的驾驶场景(交通密度、天气、光照、道路类型、车速、河流和收费站),支持精确控制驾驶路径。**Cosmos 模型遵循轨迹的偏差小于 7 厘米,表明其精确遵守输入路径。**它们还在多个视图中保持了几何和时间连贯性。

image/png 图片来源:原始论文

安全或防护系统如何?

由于 Cosmos 平台专为各个领域的应用而设计,开发人员和用户应确信该平台对任何用例都是安全的。为确保 Cosmos 的安全使用,建立了强大的防护系统。

它分两个阶段工作

image/png 图片来源:原始论文

  • **预防护**通过以下方式防止不安全提示:
    • **关键词屏蔽:** 黑名单使用词形还原过滤有害关键词(暴力、亵渎),比较词的词根形式,例如“ran”→“run”。
    • **Aegis-AI-内容安全模型:** 它标记并屏蔽与暴力、威胁、骚扰和类似风险相关的提示,如果被认为不安全则显示错误消息。
  • 后防护过滤输出以确保安全的视频生成,使用
    • **视频安全过滤器:** 分类器审查帧,如果任何帧不安全则标记视频。
    • **面部模糊过滤器:** 检测并像素化大于 20x20 像素的面部,同时保持场景上下文并保护隐私。

最后,我们回顾了 Cosmos WFM 平台的所有部分,强调了它们的优势和优点。但是局限性又如何呢?

局限性

尽管很有前景,但当前的 WFM 仍是早期模拟器,面临着显著挑战,例如:

  • 物体永存性、接触动力学和物理精度问题,如重力或光线相互作用。
  • 生成视频的真实感通常缺乏对基本物理原理的遵守。
  • 评估仍然主观,人类偏见会影响物理保真度评估。

为了克服这些问题,研究人员旨在将自动化评估与多模态 LLM 和物理模拟器结合起来,以实现可重复性和交互式测试。

结论

借助 Cosmos WFM 平台,NVIDIA 再次提供了一个宝库,其中各种概念作为一个统一的机制无缝协同工作。这种向创建物理世界的通用模拟器转变的趋势表明,我们正在迅速迈向物理 AI。当然,Cosmos WFM 平台有其局限性,需要大量改进——但它是市场上最好的系统方法之一,令人鼓舞的是他们将其提供给人们进行实验。

无论如何,Cosmos 只是旅程的开始。随着越来越多的人获得这些工具的赋能,并从不同角度探索物理 AI,我们可能会比预期更快地取得突破,不是吗?

作者:Alyona Vert 编辑:Ksenia Se

深入研究的资源(你也可以关注这些组织和作者)

来自图灵邮报的资料


📨 如果您想直接在收件箱中收到我们的文章,请在此订阅


社区

注册登录评论