FramePack：消费级 GPU 上的 O(1) 视频扩散

社区文章发布于 2025 年 4 月 17 日

社区文章 • 发布于 2025-04-17

引言

FramePack 是一个下一帧（或下一帧片段）预测框架，它将视频扩散的内存成本压缩为常量，与剪辑长度无关。它可以在低至 6 GB 显存的设备上生成数千个 30 帧/秒的视频帧，使“视频扩散”变得像图像扩散一样轻量级。

与自回归视频模型（误差累积）或传统扩散管道（内存爆炸）相比，FramePack 在每个采样步骤之前压缩时空上下文。因此，一个 13 亿参数的变体可以在笔记本电脑上流畅运行，同时仍可在单个 8 × A100/H100 节点上扩展到 batch 64 训练。

Gradio GUI：上传初始帧 + 提示，实时观看剪辑扩展。
支持 PyTorch attention、xformers、flash-attn、Sage-Attention 和方便的 CLI 标志（--share、--port 等）。

方面	详情
模型大小	13 亿参数（HY 变体）
训练批次	单台 8 × A100/H100 上为 64
最小显存（推理）	6 GB (RTX 30/40/50; FP16/BF16)
帧率	高达 30 帧/秒
采样速度	每帧 1.5 – 2.5 秒 (RTX 4090)
平台	Linux 和 Windows；Python 3.10；Gradio GUI

FramePack 弥合了图像扩散和视频扩散之间的鸿沟：恒定成本上下文打包、双向抗漂移采样以及易于使用的桌面 GUI 将 30 帧/秒的长视频生成推向日常硬件。无论您是独立创作者、研究生还是行业研究员，FramePack 都为您提供了数小时连贯 AI 视频的游乐场，而无需面对常见的内存壁垒。

尝试演示，给仓库点赞，并分享您的实验——让我们像 Stable Diffusion 使图像生成普及一样，让长视频生成触手可及。

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论