MotionLCM-V2：提高多潜令牌扩散的压缩率

社区文章发布于2024年12月11日

贡献者：戴文勋、陈凌浩、霍宇飞、王京波、刘金鹏、戴波、唐彦松

预计阅读时间：5-10分钟。

自 MotionLCM-V1 发布（2024年5月1日）以来，已近七个月。今天，我们发布了 MotionLCM-V2，这是一个在动作生成质量、动作-文本对齐能力和推理速度方面处于领先水平的文本到动作模型。此外，我们还发布了 MLD++，与原始 MLD 相比，其性能有了显著提升。我们的代码可在 https://github.com/Dai-Wenxun/MotionLCM 找到。

图1：HumanML3D上的推理时间成本比较。

MotionLCM 的本质是通过从教师模型 MLD 中提取潜在一致性来加速推理。因此，MotionLCM 的有效性最终受限于被提取教师的生成能力。因此，升级 MotionLCM 的关键挑战是提高 MLD 的生成性能。为了实现这一目标，我们对动作潜在扩散框架进行了两次关键探索。

1. 消除原始去噪器架构中的结构缺陷

在去噪变换器中，原始 MLD 架构利用堆叠的变换器编码器层和跳跃连接结构来提高建模能力。其自注意力模块包含三种不同的令牌类型：(1) 来自 VAE 编码器的潜在令牌，(2) 句子级文本特征，以及 (3) 扩散时间步嵌入。在网络中，我们发现了两个结构缺陷

(i) 与其他令牌不同，VAE 潜在令牌直接输入到自注意力模块，而无需经过可学习的线性层。这里具体的原因是 VAE 潜在令牌的特征维度为 256，与自注意力模块的隐藏维度一致。因此，省略了维度调整。然而，这种旁路意味着 VAE 潜在令牌没有被调制以更好地处理自注意力中的多模态信号，这可能使其在模型中的集成效果不佳。

(ii) 文本特征在可学习线性层之前首先通过 ReLU 激活函数。这个 ReLU 函数抑制负值，导致编码在这些负分量中的有价值的文本信息丢失。

为了纠正这些结构缺陷，我们定义了两种类型的操作。

操作1：在 VAE 潜在令牌之后引入一个可训练的线性层，以增强多模态信号调制。
操作2：移除不必要的 ReLU 激活函数，以保留文本特征中的负分量。

图2：操作1和操作2对 MLD 性能的影响。

如图2所示，操作1 显著提高了动作生成质量（FID）和动作-文本对齐能力（R-Precision Top1），而操作2 表明保留被 ReLU 激活函数过滤掉的负信息对于增强文本对齐至关重要（这里，我们观察到使用 SiLU 等保留负值的激活函数也能达到同样的效果。）。我们使用 MLD 作者提供的 VAE 检查点并使用我们自定义的训练设置训练 MLD。这两个简单而有效的操作可以显著影响 MLD 的生成性能，并被我们的后续探索性实验采用。

2. 实现多潜在令牌学习以实现高性能扩散

动作潜在扩散范式的成功根本上依赖于第一阶段 VAE 实现的感知压缩，即去除高频动作细节，同时保留基本语义信息。这使得第二阶段 MLD 能够专注于学习动作数据的语义和概念组成，即语义压缩。这一原则在 Stable Diffusion 中也得到了验证。

因此，提高 MLD 动作生成性能的关键在于获得一个最优的潜在空间。此外，潜在空间必须仔细平衡合适的压缩率（即潜在空间的大小）与关键语义信息的保留，使 MLD 能够利用语义丰富的潜在表示进行高质量的动作生成。

图3：MLD 和 MLD++ 之间的潜在空间构建比较。

如图 3 所示，在原始 MLD 中，VAE 编码器使用可学习的高斯分布参数（即 $\mu_i$ 和 $\sigma_i$ ）融合投影的姿态特征。然后从高斯分布 $\cal{N}(\mu, \sigma^{2})$ 中采样潜在令牌 $\mathbf{z}^i$ 以进行下一阶段的潜在扩散。VAE 编码器的隐藏维度表示为 $r$ ，潜在令牌的数量为 $p$ 。这导致最终压缩率为 $p \times r$ 。

图4：MLD 和 VAE 模型在不同 VAE 潜在大小下的 FID 分数比较。

然而，如图4所示，在原始 MLD 中，增加潜在令牌的数量 $p$ 提高了动作重建精度，但却导致动作生成能力的不稳定下降，如绿色虚线所示。我们将其归因于不受控制的压缩率，即增加潜在令牌的数量直接导致压缩率持续下降（例如，1x256→10x256）。这是因为原始 MLD 直接从 VAE 编码器编码的高斯分布 $\cal{N}(\mu, \sigma^{2})$ 中采样潜在令牌。不受控制的压缩率导致大部分感知压缩留给了扩散模型，从而阻碍了生成高质量动作的能力。这些问题导致原始 MLD 仅限于单一潜在令牌学习（即 1x256）进行扩散训练，与使用多潜在令牌（例如 2x256 等）的 VAE 相比，其动作生成质量的上限较低。 因此，我们的研究将重点关注如何实现多潜在令牌学习以实现高性能扩散。

图5：B2A-HDM 的方法概览。

作为解决此问题的折衷方案，B2A-HDM 采用分层扩散模型来绕过上述挑战，避免依赖于一个结构良好的潜在空间。具体来说，B2A-HDM 首先利用小 VAE 潜在大小的 MLD (即 LD-LS) 生成中间去噪潜在，然后将其解码为与文本描述对齐的动作序列。随后，它利用另一个大潜在大小的 VAE (即 HD-LS) 将动作编码为高维潜在空间。然后，该模型采用多个去噪器进行分阶段去噪，从而生成高质量、细节丰富的动作。然而，从低维到高维潜在空间的解码和编码过程不可避免地导致误差累积，而多去噪器框架增加了训练和推理阶段的复杂性。

我们的解决方案更为直接。如图 3(b) 所示，在 MLD++ 中，我们添加了一个线性层作为潜在适配器，以调整嵌入式分布参数的维度，直接控制潜在空间 $\cal{N}(\mu^{\mathbf{'}}, \sigma^{\mathbf{'}2})$ 的大小。这种优雅的设计使我们能够利用多潜在令牌的强大压缩能力，同时保持对压缩率的控制，从而为随后的扩散阶段提供更紧凑的潜在空间。 我们在 MLD++ 中使用了潜在适配器，除非预期的潜在空间大小与潜在令牌维度一致（例如，1x256 和 2x256）。

图6：不同压缩率下 VAE 和 MLD++ 的 FID 分数曲线。

如图 6 所示，在相同压缩率下，随着潜在令牌数量的增加，VAE 的动作重建精度提高，并且正如我们所期望的，MLD++ 的生成性能也得到了增强。通过使用潜在适配器控制压缩率，我们实现了多潜在令牌学习以实现高性能扩散。

表1：不同潜在大小（即压缩率）下 VAE 和 MLD++ 的性能。

如表1所示，增加潜在令牌的数量会略微增加推理时间 AITS，但仍在可接受范围内（0.2s~0.3s）。此外，增加潜在令牌的数量会导致动作-文本匹配性能的波动。考虑到 MLD++ 的动作生成质量（FID）和动作-文本对齐能力（R-Precision Top1），我们选择 MLD++ 的最佳 FID 检查点（16x32）来提炼我们的 MotionLCM-V2。

表2：HumanML3D 数据集上文本条件动作合成的比较。

如表2所示，与 B2A-HDM 依赖过于复杂的多去噪器框架不同，MLD++ 仅使用单个去噪器就大幅超越了 B2A-HDM。得益于强大的 MLD++，MotionLCM-V2 的蒸馏性能也比 MotionLCM-V1 显著提高，在推理速度、动作生成质量和文本对齐能力方面表现出色，进一步推动了文本到动作生成领域的最新进展。

引用

@inproceedings{motionlcm,
  title={Motionlcm: Real-time controllable motion generation via latent consistency model},
  author={Dai, Wenxun and Chen, Ling-Hao and Wang, Jingbo and Liu, Jinpeng and Dai, Bo and Tang, Yansong},
  booktitle={ECCV},
  pages={390--408},
  year={2025}
}

@article{motionlcm-v2,
  title={Real-time Controllable Motion Generation via Latent Consistency Model},
  author={Dai, Wenxun and Chen, Ling-Hao and Huo, Yufei and Wang, Jingbo and Liu, Jinpeng and Dai, Bo and Tang, Yansong}
}

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录评论