💃推出首个基于LLM的运动理解模型:MotionLLM
由于这是一篇博客文章,我们只想重点介绍 MotionLLM 的主要功能和见解,并讨论其丰富的应用。作为一项研究工作,我们想强调一些最基本的内容。
问题1:以前的方法是否足够糟糕?
回答1:是的。我们计划分两部分回答这个问题。
视频理解方面的竞争基线是 Video-LLaVA,我们认为它也是一项出色的工作。然而,它在推理中无法很好地遵循指令。特别是,当我询问与人类行为相关的问题时,它倾向于描述环境信息。
对于运动部分,与“良好”理解之间存在更大的差距。现有的最大模型(MotionGPT,来自 Jiang 等人)无法扩展到十亿级别。此外,它不具备良好的泛化能力,特别是推理能力。
以上这些促使我们开发 MotionLLM。运动社区的许多同行与我讨论了“为什么运动相关模型不能扩展到 X-B 级别?”。今天,MotionLLM 做到了。
问题2:为什么支持的模态是运动和视频?
回答2:首先,运动数据冗余度较低,没有任何干扰,而且私密性更强。在这种设置下,运动数据更容易被深度模型压缩。然而,运动数据缺乏“接地”,特别是一些“非物理表演”的例子。幸运的是,这正是视频可以提供的。这是我们的基本动机。
问题3:我们的研究目标是什么?
回答3:我们旨在闭合2个循环。
建立一个运动→文本→运动的闭环。如果我们获得大量运动(来自动捕或视频)并为其添加字幕,就可以轻松扩展数据。这对于文本到运动非常有用。
人(人形机器人)在环理解。一个能够看到世界的智能体能够闭合一个动作-反应循环。我们认为这是人(人形机器人)-环境交互的基础。
我们在启动项目时分析了这些问题。我与 Shunlin 讨论了以前的方法为何失败。我们从以下几个方面总结了问题。
最受启发模型 MotionGPT 无法彻底弥合运动语言之间的鸿沟。运动并非完全是一种外语。需要更多的适应。
数据也应受到指责。可用于描述人类行为的数据有限。
对于第一个问题,我们的技术解决方案非常简单。受 LLaVA 的启发,我们通过一个线性投影层来弥合模态差距。然而,与 Video-LLaVA 和 LLaVA 不同,运动与视频之间存在更大的模态差距。因此,它们不共享投影层。值得注意的是,运动和视频在LLM部分共享知识,它们相互协助。为了充分利用“运动-文本-视频”三元组数据,我们将其用于训练,并发现它们确实联合提示出更好的结果。这进一步帮助我们回答了上面的第二个问题(问题2)。
对于第二个问题,我们花费了数万美元用于数据标注,包括字幕和问答。我相信“没有脏活,就没有完美结果。”。我们认为这将对社区非常有用。
至于结果,我在展示 SOTA 结果方面有点懒。我想重点介绍 MotionLLM 的一些应用。
MotionLLM 实现了基本的运动/行为理解。
MotionLLM 是您的健身教练,特别是对残疾人而言。
MotionLLM 作为大型活动的赛事评论员。
MotionLLM 是一个控制人形机器人并执行动作的智能体。
……
欲了解详情,请访问我们的主页 (https://lhchen.top/MotionLLM/)。
作者:Ling-Hao Chen 和 Shunlin Lu。感谢其他合著者。
📜 引用
@article{chen2024motionllm,
title={MotionLLM: Understanding Human Behaviors from Human Motions and Videos},
author={Chen, Ling-Hao and Lu, Shunlin and Zeng, Ailing and Zhang, Hao and Wang, Benyou and Zhang, Ruimao and Zhang, Lei},
journal={arXiv preprint arXiv:2405.20340},
year={2024}
}