MotionLCM-V2:提高多潜令牌扩散的压缩率
贡献者:戴文勋、陈凌浩、霍宇飞、王京波、刘金鹏、戴波、唐彦松
预计阅读时间:5-10分钟。
自 MotionLCM-V1 发布(2024年5月1日)以来,已近七个月。今天,我们发布了 MotionLCM-V2,这是一个在动作生成质量、动作-文本对齐能力和推理速度方面处于领先水平的文本到动作模型。此外,我们还发布了 MLD++,与原始 MLD 相比,其性能有了显著提升。我们的代码可在 https://github.com/Dai-Wenxun/MotionLCM 找到。
图1:HumanML3D上的推理时间成本比较。
MotionLCM 的本质是通过从教师模型 MLD 中提取潜在一致性来加速推理。因此,MotionLCM 的有效性最终受限于被提取教师的生成能力。因此,升级 MotionLCM 的关键挑战是提高 MLD 的生成性能。为了实现这一目标,我们对动作潜在扩散框架进行了两次关键探索。
1. 消除原始去噪器架构中的结构缺陷
在去噪变换器中,原始 MLD 架构利用堆叠的变换器编码器层和跳跃连接结构来提高建模能力。其自注意力模块包含三种不同的令牌类型:(1) 来自 VAE 编码器的潜在令牌,(2) 句子级文本特征,以及 (3) 扩散时间步嵌入。在网络中,我们发现了两个结构缺陷
(i) 与其他令牌不同,VAE 潜在令牌直接输入到自注意力模块,而无需经过可学习的线性层。这里具体的原因是 VAE 潜在令牌的特征维度为 256,与自注意力模块的隐藏维度一致。因此,省略了维度调整。然而,这种旁路意味着 VAE 潜在令牌没有被调制以更好地处理自注意力中的多模态信号,这可能使其在模型中的集成效果不佳。
(ii) 文本特征在可学习线性层之前首先通过 ReLU 激活函数。这个 ReLU 函数抑制负值,导致编码在这些负分量中的有价值的文本信息丢失。
为了纠正这些结构缺陷,我们定义了两种类型的操作。
- 操作1:在 VAE 潜在令牌之后引入一个可训练的线性层,以增强多模态信号调制。
- 操作2:移除不必要的 ReLU 激活函数,以保留文本特征中的负分量。
图2:操作1和操作2对 MLD 性能的影响。
如图2所示,操作1 显著提高了动作生成质量(FID)和动作-文本对齐能力(R-Precision Top1),而操作2 表明保留被 ReLU 激活函数过滤掉的负信息对于增强文本对齐至关重要(这里,我们观察到使用 SiLU 等保留负值的激活函数也能达到同样的效果。)。我们使用 MLD 作者提供的 VAE 检查点并使用我们自定义的训练设置训练 MLD。这两个简单而有效的操作可以显著影响 MLD 的生成性能,并被我们的后续探索性实验采用。
2. 实现多潜在令牌学习以实现高性能扩散
动作潜在扩散范式的成功根本上依赖于第一阶段 VAE 实现的感知压缩,即去除高频动作细节,同时保留基本语义信息。这使得第二阶段 MLD 能够专注于学习动作数据的语义和概念组成,即语义压缩。这一原则在 Stable Diffusion 中也得到了验证。
因此,提高 MLD 动作生成性能的关键在于获得一个最优的潜在空间。此外,潜在空间必须仔细平衡合适的压缩率(即潜在空间的大小)与关键语义信息的保留,使 MLD 能够利用语义丰富的潜在表示进行高质量的动作生成。
图3:MLD 和 MLD++ 之间的潜在空间构建比较。
如图 3 所示,在原始 MLD 中,VAE 编码器使用可学习的高斯分布参数(即 和 )融合投影的姿态特征。然后从高斯分布 中采样潜在令牌 以进行下一阶段的潜在扩散。VAE 编码器的隐藏维度表示为 ,潜在令牌的数量为 。这导致最终压缩率为 。
图4:MLD 和 VAE 模型在不同 VAE 潜在大小下的 FID 分数比较。
然而,如图4所示,在原始 MLD 中,增加潜在令牌的数量 提高了动作重建精度,但却导致动作生成能力的不稳定下降,如绿色虚线所示。我们将其归因于不受控制的压缩率,即增加潜在令牌的数量直接导致压缩率持续下降(例如,1x256→10x256)。这是因为原始 MLD 直接从 VAE 编码器编码的高斯分布 中采样潜在令牌。不受控制的压缩率导致大部分感知压缩留给了扩散模型,从而阻碍了生成高质量动作的能力。这些问题导致原始 MLD 仅限于单一潜在令牌学习(即 1x256)进行扩散训练,与使用多潜在令牌(例如 2x256 等)的 VAE 相比,其动作生成质量的上限较低。 因此,我们的研究将重点关注如何实现多潜在令牌学习以实现高性能扩散。
图5:B2A-HDM 的方法概览。
作为解决此问题的折衷方案,B2A-HDM 采用分层扩散模型来绕过上述挑战,避免依赖于一个结构良好的潜在空间。具体来说,B2A-HDM 首先利用小 VAE 潜在大小的 MLD (即 LD-LS) 生成中间去噪潜在,然后将其解码为与文本描述对齐的动作序列。随后,它利用另一个大潜在大小的 VAE (即 HD-LS) 将动作编码为高维潜在空间。然后,该模型采用多个去噪器进行分阶段去噪,从而生成高质量、细节丰富的动作。然而,从低维到高维潜在空间的解码和编码过程不可避免地导致误差累积,而多去噪器框架增加了训练和推理阶段的复杂性。
我们的解决方案更为直接。如图 3(b) 所示,在 MLD++ 中,我们添加了一个线性层作为潜在适配器,以调整嵌入式分布参数的维度,直接控制潜在空间 的大小。这种优雅的设计使我们能够利用多潜在令牌的强大压缩能力,同时保持对压缩率的控制,从而为随后的扩散阶段提供更紧凑的潜在空间。 我们在 MLD++ 中使用了潜在适配器,除非预期的潜在空间大小与潜在令牌维度一致(例如,1x256 和 2x256)。
图6:不同压缩率下 VAE 和 MLD++ 的 FID 分数曲线。
如图 6 所示,在相同压缩率下,随着潜在令牌数量的增加,VAE 的动作重建精度提高,并且正如我们所期望的,MLD++ 的生成性能也得到了增强。通过使用潜在适配器控制压缩率,我们实现了多潜在令牌学习以实现高性能扩散。
表1:不同潜在大小(即压缩率)下 VAE 和 MLD++ 的性能。
如表1所示,增加潜在令牌的数量会略微增加推理时间 AITS,但仍在可接受范围内(0.2s~0.3s)。此外,增加潜在令牌的数量会导致动作-文本匹配性能的波动。考虑到 MLD++ 的动作生成质量(FID)和动作-文本对齐能力(R-Precision Top1),我们选择 MLD++ 的最佳 FID 检查点(16x32)来提炼我们的 MotionLCM-V2。
表2:HumanML3D 数据集上文本条件动作合成的比较。
如表2所示,与 B2A-HDM 依赖过于复杂的多去噪器框架不同,MLD++ 仅使用单个去噪器就大幅超越了 B2A-HDM。得益于强大的 MLD++,MotionLCM-V2 的蒸馏性能也比 MotionLCM-V1 显著提高,在推理速度、动作生成质量和文本对齐能力方面表现出色,进一步推动了文本到动作生成领域的最新进展。
引用
@inproceedings{motionlcm,
title={Motionlcm: Real-time controllable motion generation via latent consistency model},
author={Dai, Wenxun and Chen, Ling-Hao and Wang, Jingbo and Liu, Jinpeng and Dai, Bo and Tang, Yansong},
booktitle={ECCV},
pages={390--408},
year={2025}
}
@article{motionlcm-v2,
title={Real-time Controllable Motion Generation via Latent Consistency Model},
author={Dai, Wenxun and Chen, Ling-Hao and Huo, Yufei and Wang, Jingbo and Liu, Jinpeng and Dai, Bo and Tang, Yansong}
}