Genie:生成式交互环境

社区文章 发布于 2024 年 2 月 26 日

Genie 是 Google DeepMind 推出的一种新方法,它能够从未标注的互联网视频中创建交互式、可动作控制的虚拟世界。这种无监督学习方法能够生成多样化的环境,用户可以在其中探索和互动,为高级智能体训练和游戏、模拟领域的新应用铺平了道路。

方法概述

Genie 利用时空视频分词器、自回归动态模型和潜在动作模型的组合来生成可控的视频环境。它仅通过视频数据进行训练,无需动作标注,使用无监督学习推断帧之间的潜在动作,从而实现对生成视频序列的逐帧控制。它对所有组件使用内存高效的 ST-transformer,以减轻 Vision Transformer 的二次内存成本,后者对视频构成挑战。该模型由三个组件组成:视频分词器、潜在动作模型和动态模型,如下所示:

潜在动作模型推断每对帧之间的潜在动作,而视频分词器将原始视频帧转换为离散的标记。然后,给定潜在动作和过去的帧标记,动态模型预测视频中的下一帧。该模型使用标准的自回归流水线分两个阶段进行训练:首先训练视频分词器,然后共同训练潜在动作模型和动态模型。

潜在动作模型专为可控视频生成而设计,其中每个未来帧的预测基于前一帧中执行的动作。由于视频的动作标注(尤其是来自互联网的视频)成本高昂,该模型采用无监督方法来学习潜在(隐藏)动作。因此,在编码阶段,编码器将所有先前帧和下一帧作为输入,并输出一组连续的潜在动作。然后,在解码阶段,解码器接收先前帧和潜在动作作为输入,并预测下一帧。它使用基于 VQ-VAE 的目标,允许将动作总数限制为一小部分离散代码。将动作词汇量限制为 8 可确保可能的潜在动作数量保持较小。通过这种方式,动作应该编码过去和未来之间最有意义的变化。该模块在推理期间被丢弃,并由用户给出的动作代替,因此它仅用作训练信号。

视频分词器训练也使用了类似的编码器-解码器。视频分词器经过训练,可有效地将视频数据编码到可高效操作的潜在空间中。该过程如下所示,其中 *z* 是学习到的标记。

动态模型负责理解和预测基于动作的环境的时间演变。它使用仅解码器 MaskGIT,并接收过去的标记帧以及动作作为输入,并预测下一帧。

对于推理,用户给定一个起始帧 x1 并选择一个整数来表示要执行的潜在动作。由于模型用 8 个动作进行训练,因此它选择一个介于 0 到 8 之间的数字。现在,该帧和动作被输入到动态模型中以生成下一帧标记。然后该过程迭代进行,用户输入新的动作。该过程如下所示:

数据

用于训练的数据集是通过过滤公共互联网视频生成的,过滤条件与 2D 平台游戏、诸如“速通”或“通关”等动作相关,并排除了“电影”或“开箱”等不相关内容。视频以 10 FPS 的速度分成 16 秒的片段,每个片段包含 160 帧,整个数据集约包含 5500 万个视频,总时长约 24.4 万小时。此步骤后获取的数据通常包含低质量视频。因此,采用一种使用学习分类器的选择过程。该团队将 1 万个视频标记为 1(差)到 5(最佳)的质量等级。这用于训练一个二元分类器,用于过滤视频。此过程将数据集减少到约 680 万个视频的 3 万小时,并提高了整体性能。

结果

该模型展示了一些非常有前景的结果,并能够生成高质量、多样化且可控的环境。以下是一些结果亮点:

结论

Genie 代表了生成式人工智能的一个重大进展,提供了一种交互式环境生成方法。我认为它有潜力为创意内容生成、沉浸式模拟体验和智能体训练开辟无数可能性。更多细节请参见论文项目页面

祝贺作者们的工作!

Bruce, Jake 等人。“Genie:生成式交互环境。” (2024)。

社区

注册登录 以评论