MotionLCM:最快最好的动作生成模型

社区文章 发布于2024年6月26日

最近,我们发布了MotionLCM,这是一种支持实时动作生成和控制的单步扩散模型!其论文、代码、演示和项目主页等均已公开。

MotionLCM专注于逼真动作生成的基础任务,旨在生成合理且逼真的人体动作。此前基于扩散模型的工作所面临的核心挑战是效率低下,推理时间异常长。受一致性蒸馏的启发,MotionLCM提出在潜在空间中一步生成合理的潜在代码,并通过解码器获得合理的动作。MotionLCM支持1-4步推理管道,1步和4步的效果几乎没有差异。其效率与基于扩散的模型相比,有了显著提高。下面是FID和速度的比较。生成大约200帧动作仅需约30毫秒,平均每帧约6k fps。

image/png

毫无疑问,我们已经在速度和生成质量之间取得了平衡。为了推进这项工作,在与文迅和靖波讨论时,我们思考了一个问题:实时生成算法的主要应用场景是什么?我们一致同意探索MotionLCM的可控性,因为编辑和可控性要求最高水平的实时性能。当用户需要根据给定条件(如轨迹)实时确定和编辑输出动作时,算法的即时反馈至关重要。因此,我们在潜在空间的扩散中集成了一个控制模块,称为Motion ControlNet,以实现可控动作生成。从数值上看,我们的控制算法比性能最佳的基线快约1,000倍,且质量相当。

image/png

我们将在以下视频中展示一些文本到动作和可控动作生成的结果演示。MotionLCM支持密集或稀疏的条件信号(视频链接此处)。

此外,我们还提供了一个HuggingFace交互界面供大家测试,支持生成多样化的结果和不同动作时长。但是,由于目前平台没有GPU,只有共享的CPU资源可用,这意味着您无法在平台上体验实时生成效果。您可以下载并在本地部署以亲身体验。演示地址在此

博文由Ling-Hao (Evan) Chen撰写。感谢文迅、靖波、金鹏、博和彦松的贡献。

📜 引用

@article{motionlcm,
  title={MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model},
  author={Dai, Wenxun and Chen, Ling-Hao and Wang, Jingbo and Liu, Jinpeng and Dai, Bo and Tang, Yansong},
  journal={arXiv preprint arXiv:2404.19759},
  year={2024},
}

社区

注册登录 发表评论