一个SOTA开放视频模型会消耗多少电量？ ⚡🎥

社区文章发布于2025年7月2日

TL;DR 我们对一些最新的开源文本到视频模型（包括 Mochi-1-preview、CogVideoX-5b、WAN2.1-T2V-1.3B-Diffusers、AnimateDiff 等）进行了能耗基准测试，并测量了生成短视频所需的能耗。

结果令人震惊：生成单个视频片段的成本从几瓦分钟到超过100瓦时不等，具体取决于模型——能耗差异接近800倍。

图：使用 Mochi-1-preview 生成的视频 | 提示词：变色龙眼睛的特写，其鳞片状皮肤正在变色（4K）

📌 为什么选择此基准？

OpenAI 的 Sora 和 Google DeepMind 的 Veo 3 等近期突破性技术，让社交媒体充斥着令人惊叹的 AI 生成视频——这为文本到视频生成设定了前所未有的高标准。与此同时，开源社区正在迅速追赶，发布了任何人都可以在一台不错的 GPU 上运行的强大模型。但华丽的演示并没有揭示其隐藏成本：制作几秒钟的素材到底需要多少能源和计算时间？我们希望通过在相同条件下比较几个流行的开源模型并分享可复现的数据来找出答案，这样您就知道生成下一个视频片段时会发生什么。

图：使用 CogVideoX-5b 生成的视频 | 提示词：“一只穿着红色小夹克和迷你帽子的熊猫，坐在一片宁静的竹林中的木凳上。熊猫毛茸茸的爪子拨动着一把微型木吉他，发出柔和、旋律优美的曲调……”

⚙️ 实验设置

硬件

CPU：8 核 — AMD EPYC 7R13 处理器
GPU：1 块 NVIDIA H100 80GB HBM3

方法论

2 次预热运行以稳定性能。
每个模型进行 5 次测量运行。
使用 CodeCarbon 跟踪能耗。
每个模型都使用其官方 Hugging Face 页面推荐的参数运行。这意味着分辨率、帧数、FPS 和采样步数可能因模型而异——这反映了实际使用情况，而不是强制执行可能影响质量的相同设置。

关键参数（每个模型）

模型	步骤	分辨率（高x宽）	帧数	帧率（FPS）	Hugging Face 页面
AnimateDiff	4	512×512	16	10	AnimateDiff
CogVideoX-2b	50	480×720	49	8	CogVideoX-2b
CogVideoX-5b	50	480×720	49	8	CogVideoX-5b
LTX-Video-0.9.7-dev	30	512×704	121	24	LTX-Video
Mochi-1-preview	64	480×848	84	30	Mochi-1
WAN2.1-T2V-1.3B	60	480×832	81	15	WAN2.1-T2V-1.3B
WAN2.1-T2V-14B	60	480×832	81	15	WAN2.1-T2V-14B

这些参数的含义

步数 — 去噪或采样步数；步数越多通常意味着更好的细节，但也需要更多的时间和能源。
分辨率（高x宽） — 视频帧的像素尺寸；分辨率越高，GPU 负载越大。
帧数 — 每个视频片段生成的总帧数；帧数越多 = 视频越长，计算量越大。
FPS（每秒帧数） — 播放流畅度；FPS 越高，每秒需要的独立帧数越多。
HF 页面 — 官方 Hugging Face 模型卡片的链接，包含说明和建议。

示例提示词：为了测试各种场景，我们使用了不同的提示词——从电影般的城市风光到野生动物特写和有趣的吉祥物Vlog。例如：

“夜间的未来城市风光，霓虹灯倒映在湿漉漉的街道上。”
“一只雄伟的龙飞越雪山。”
“一只逼真的大猩猩，穿着一件黄色的 Hugging Face T恤，在巴黎埃菲尔铁塔等地标周围行走时，以自拍模式拍摄自己。”
“变色龙眼睛的特写，其鳞片状皮肤正在变色。超高分辨率 4K。”

图：使用 WAN2.1-T2V-14B 生成的视频 | 提示词：一只猫和一只狗在厨房里一起烤蛋糕。猫在仔细地量面粉，而狗则用木勺搅拌面糊……

🎬 初步印象：视频效果如何？

siguiendo Veo 3 大猩猩视频博客的潮流，我们尝试用提示词：“一只逼真的大猩猩，穿着一件黄色的 Hugging Face T恤，在巴黎埃菲尔铁塔等地标周围行走时，以自拍模式拍摄自己。”

初步印象

AnimateDiff 生成的视频片段非常短，但在模仿大猩猩的外观方面表现不佳。
CogVideoX 保持了猿猴的一致外观，但头部有时会出现运动故障。
Mochi 是我的最爱：运动流畅，非常连贯，尽管颜色看起来略显苍白。
LTX-Video 显示出流畅的运动，但感觉有点飘忽或像幽灵。
WAN2.1-T2V 模型渲染出精致、图像般的风格——对于真人动作来说不太真实，但它们在 T恤上很好地显示了 Hugging Face 的文字。

🔌 能源使用：数据

模型之间的能耗差异巨大——有时甚至相差几个数量级。例如，AnimateDiff 仅在 GPU 上消耗约 0.11 瓦时即可生成一个短视频片段，而 WAN2.1-T2V-14B 仅在 GPU 上生成单个视频就消耗了近 94 瓦时。

我们平均了每个生成视频片段的 GPU + CPU + RAM 能耗，并摊销了预热成本（黑色误差条表示 10 次提示生成中的标准差）

模型	平均 GPU 能耗（瓦时）	平均 CPU 能耗（瓦时）	平均 RAM 能耗（瓦时）
AnimateDiff	0.11	0.02	0.01
LTX-Video-0.9.7-dev	3.19	0.41	0.19
CogVideoX-2b	8.32	1.21	0.55
CogVideoX-5b	21.71	2.91	1.31
WAN2.1-T2V-1.3B	19.73	1.98	1.09
WAN2.1-T2V-14B	93.83	10.47	5.17
Mochi-1-preview	46.77	6.40	2.89

在日常生活中，这有多大？

为了直观地感受一下：

AnimateDiff（总计约 0.14 瓦时）≈ 10W LED 灯泡亮 50 分钟
（0.14 瓦时 ÷ 10 瓦 = 0.014 小时 ≈ 50 分钟）
Mochi-1-preview（约 56 瓦时）≈ 微波炉使用 5 分钟
（56 瓦时 ÷ 1,200 瓦 = ~0.047 小时 ≈ 3 分钟）
WAN2.1-T2V-14B（约 109 瓦时）≈ 7-10 次智能手机充满电
（109 瓦时 ÷ 15 瓦时 = ~7.3 次充电）

作为参考，在我们的“谢谢”能耗研究中，我们测量到对 LLaMA 3–8B 的一次礼貌回复大约消耗 0.245 瓦时。

所以

AnimateDiff ≈ 0.5 倍的“谢谢”
Mochi-1-preview ≈ 190 倍
WAN2.1-T2V-14B ≈ 380 倍

🧩 为什么会有这些差异？

能耗的巨大差异源于与模型构建方式和视频生成方式密切相关的几个因素

模型大小（参数）——像 WAN2.1-T2V-14B 或 Mochi-1-preview 这样的大型模型在每个去噪步骤中需要处理数十亿个参数。与 AnimateDiff 等轻量级管道相比，这自然会增加计算和能耗。
去噪步数——每个额外的采样或去噪步骤都会重复繁重的矩阵操作。例如，AnimateDiff 只使用 4 个步骤进行快速生成，而 Mochi 可以运行 64 个步骤以获得更清晰的细节和更流畅的运动。
空间分辨率和时间长度——更高的分辨率意味着在每个步骤中需要更多像素进行精细化处理。同样，更多的帧或更高的 FPS 会增加模型需要采样或插值运动的次数。因此，一个 30 fps、100 帧的视频片段比一个短小低分辨率的 GIF 成本更高。
架构差异——在底层，这些模型混合了Transformer、扩散采样器，有时还包括运动模块或时间注意力机制。有些模型，例如 CogVideoX，使用级联阶段（基础视频 + 细化器），这会使采样遍数和运行时间成倍增加。其他模型，例如 AnimateDiff，通过在静态扩散之上应用运动层，以牺牲复杂性为代价来追求速度。

在实践中，AnimateDiff 也生成帧数少、步数少、非常短的视频片段，并直接输出为 GIF，这进一步降低了其能耗。

📈 开放视频模型仍处于早期阶段

尽管目前计算成本高昂，但开放视频生成仍处于早期阶段，就像几年前的大型语言模型一样。视频生成依赖于架构和采样算法，这些算法的 FLOPs 自然比典型的文本模型要重——因为它们必须同时保持空间和时间上的连贯性（想想“多张图像+运动，由文本引导”）。此外，任务本身也增加了超出纯文本生成的额外复杂性。

然而，正如我们在语言模型中看到的大规模效率提升（量化、更快的内核、更智能的采样）一样，类似的优化也可能出现在视频领域：

更好的运动先验和帧复用
高级中间步骤缓存
针对时间任务进行微调的轻量级Transformer

✅ 结论

文本到视频在开源世界中发展迅猛——此次基准测试既展示了它的潜力，也揭示了目前的局限性。当前的流水线在生成几秒钟的视频素材时仍然消耗大量能源，这主要是由于模型规模大、多步采样以及同时处理空间细节和时间连贯性的挑战。

但就像早期的语言模型一样，我们可以期待效率上的巨大飞跃：更智能的架构、更快的采样器和巧妙的帧复用已经在探索中。了解真实的能耗有助于我们跟踪进展，平衡质量与成本，并推动更可持续、更易于访问的生成式视频工具。

🔗 复现与探索

想深入了解或运行自己的测试吗？请查看此处的代码、结果和所有生成的视频：

📁 代码与基准脚本 → GitHub: JulienDelavande/benchlab
📂 数据集与所有生成的视频 → Hugging Face Collection

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论