Allegro:高级视频生成模型
我们很高兴地宣布 Allegro 的开源发布,它是 Rhymes AI 的高级文本到视频模型。Allegro 是一个强大的 AI 工具,能将简单的文本提示转换为高质量的短视频片段,为 AI 生成视频领域的创作者、开发者和研究人员开辟了新的可能性。我们希望 Allegro 能够激发社区的视觉创造力、想象力和协作精神。
Allegro 简介
Allegro 允许用户从简单的文本提示中生成高质量的 6 秒视频,帧率为 15 帧/秒,分辨率为 720p。这种质量水平使得能够高效创建各种电影主题,从人物和动物在各种场景中的详细特写,到几乎任何可以根据文本描述想象的场景。该模型的多功能性为用户提供了在 6 秒格式限制内探索不同创意想法的灵活性。
主要功能
- 开源: 完整的模型权重和 代码已向社区开放,采用 Apache 2.0 许可证!
- 多功能内容创作: 能够生成广泛的内容,从人物和动物的特写到各种动态场景。
- 高质量输出: 生成详细的 6 秒视频,帧率为 15 FPS,分辨率为 720x1280,可使用 EMA-VFI 插值到 30 FPS。
- 小巧高效: 具有 1.75 亿参数的 VideoVAE 和 28 亿参数的 VideoDiT 模型。支持多种精度(FP32、BF16、FP16),在 BF16 模式下使用 CPU 卸载时,GPU 内存占用为 9.3 GB。上下文长度为 79.2k,相当于 88 帧。
在这篇博客文章中,我们将深入探讨 Allegro 的核心技术,探索其三个关键组成部分:
- 大规模视频数据处理
- 将原始视频压缩为视觉令牌
- 扩展视频扩散Transformer
我们还将展示一些令人印象深刻的演示,并讨论正在进行的功能开发,这些开发有望进一步推动 AI 生成视频的界限。
Allegro 背后的技术
该模型的能力建立在处理视频数据、压缩原始视频和生成视频帧的核心技术之上,从而能够将文本提示转换为短视频片段。
1. 大规模视频数据处理
为了创建一个能够生成多样化和逼真视频的模型,需要一个处理大量视频数据的系统。考虑到这一点,我们设计了系统的视频数据处理和过滤流程,从原始数据中提取训练视频。该过程是顺序的,包括以下阶段:
接下来,根据处理过程中获得的指标,我们开发了一个结构化的数据系统,该系统允许对数据进行多维分类和聚类,从而促进模型在各个阶段和目的的训练和微调。我们在技术报告中分享了详细的方案。
2. 将视频压缩为视觉令牌
视频生成中的一个关键挑战是管理海量数据。为了解决这个问题,我们将原始视频压缩成更小的视觉令牌,同时保留必要的细节,从而实现更流畅、更高效的视频生成。具体来说,我们设计了一个视频变分自动编码器(Video Variational Autoencoder,VideoVAE),它将原始视频编码到时空潜在空间中。VideoVAE 基于预训练的图像 VAE 构建,并通过时空建模层进行扩展,以有效利用空间压缩能力。
所提出的 VideoVAE 将视频在时间、高度和宽度维度上分别以 (4, 8, 8) 的比例进行压缩。这种方法减少了视频生成骨干网络的输入序列长度,从而能够以原始帧率生成长高分辨率视频。
3. 扩展视频扩散Transformer
Allegro 视频生成能力的核心在于其可扩展的扩散 Transformer 架构,该架构应用扩散模型生成高分辨率视频帧,确保视频运动的质量和流畅性。Allegro 的骨干网络基于 DiT(扩散 Transformer)架构,并采用 3D RoPE 位置嵌入和 3D 全注意力机制。该架构能有效捕获视频数据中的空间和时间关系。
与使用 UNet 架构的传统扩散模型相比,Transformer 结构更有利于模型扩展。通过利用 3D 注意力机制,DiT 能够同时处理视频帧的空间维度及其时间演变,从而对运动和上下文有更细致的理解。3D 注意力机制和 DiT 模型的可扩展能力的结合显著提高了性能,从而能够生成细节丰富、运动流畅的高质量视频。
Allegro 的实际应用
实际应用中,Allegro 将各种文本描述转换为短视频片段。给定提示“粉色鱼在海中游弋”,它会生成一段视频,捕捉彩色鱼在水中流畅游动的画面。相比之下,对于“一名宇航员骑马”的提示,Allegro 则会创建更具奇幻色彩的场景,显示一个身穿宇航服的人物骑在马上,背景是尘土飞扬的场景。这些示例展示了 Allegro 在可视化自然和想象场景方面的能力,从水下场景到超现实概念无所不能。
如需查看未经压缩的更多示例,请访问我们的 Allegro 图库。
未来发展
我们对 Allegro 目前的能力感到兴奋,但这仅仅是个开始。我们的团队正在积极开发 Allegro 的更高级功能,包括图像到视频生成、运动控制以及支持更长、叙事性更强的分镜式视频生成。
参与 Allegro 项目
我们的目标是让更多用户更容易使用 AI 驱动的视频创作。通过开源 Allegro,并提供模型权重和代码,我们邀请社区探索、释放他们的创造力,并在我们的工作基础上继续发展,希望在 AI 生成视频技术方面取得协作进步。以下是您可以开始的方式:
- 📜 阅读我们的技术报告,了解详细信息:https://arxiv.org/abs/2410.15458
- 🤗 在 Hugging Face 上访问 Allegro 权重:https://huggingface.co/rhymes-ai/Allegro
- 📦 在 GitHub 上探索 Allegro 推理代码:https://github.com/rhymes-ai/Allegro
- 💬 或者直接在我们的 Discord 上尝试(即将推出):通过填写此等候名单
如有任何疑问或讨论,请随时加入我们的Discord社区,或通过我们的反馈表联系我们。
我们迫不及待地想看到您用 Allegro 创作出什么!
Rhymes 团队