GPT-OSS 模型来了……而且它们能效很高!
OpenAI 期待已久的 GPT-OSS 模型终于来了——但它们运行需要多少能量呢?
近几个月来,开源人工智能竞赛变得越来越激烈(以一种好的方式!),越来越多的组织与社区分享最先进的语言模型。本周,OpenAI 发布了其自 GPT-2 以来的首批开源模型——20B 和 120B 模型,两者都设计用于基于文本的推理、聊天和编码。但它们消耗多少能量,与最近的其他模型相比如何?
为了测量能耗,我们使用了 Code Carbon 包来比较来自不同模型家族的 7 个大小相似的模型,包括 Phi、Gemma 和 Qwen。我们在一个拥有 8 个 Nvidia A100 GPU 的节点上运行这些模型,并从“Awesome GPT prompts”数据集中抽取了 100 个提示,将模型输出配置为 25、50 和 100 个 token,以测量其变化。
我们报告了每个查询的平均能耗(单位:瓦时),如下所示
GPT-OSS (20B) | GPT-OSS (120B) | Phi-4 (15B) | Llama-3.1 (70B) | Gemma-3 (27B) | Qwen3 (30B) | Command-A (110B) | |
---|---|---|---|---|---|---|---|
25 个 token | 0.49 | 1.84 | 4.03 | 4.91 | 5.30 | 8.15 | 8.95 |
50 个 token | 0.98 | 3.83 | 6.79 | 7.38 | 8.67 | 10.48 | 10.18 |
100 个 token | 2.02 | 8.31 | 7.93 | 9.68 | 10.46 | 17.37 | 18.96 |
我们可以看到 GPT-OSS 模型是我们样本中能效最高的,其中 120B 模型每个查询的能耗低于 LLaMa-70B 等较小模型,而 gpt-oss-20b 是全面效率最高的。作为参考,20b 模型处理 100 个 token 的查询大约消耗 2 瓦时能量,这大致相当于一个 LED 灯泡运行 5-10 分钟的电量,而拥有 30 亿参数的 Qwen 3 模型,处理相同长度的查询却消耗 17 瓦时,即相同输出长度的能耗是其 8 倍。
这种效率可以通过 GPT-OSS 模型内置的许多技术贡献来解释,这些贡献有助于提高其能效。这包括诸如专家混合等功能,它减少了处理输入所需的活动参数数量,从而降低了计算成本和能耗,以及注意力优化,提高了推理和内存效率(有关架构和实现的更详细描述,请参阅 GPT-OSS 技术报告)。
两个月前,OpenAI 首席执行官 Sam Altman 写了一篇博客文章,指出典型的 ChatGPT 请求消耗大约 0.34 瓦时能量(并消耗约 0.000085 加仑水)。虽然鉴于透明度显著提高,我们仍然不能完全相信这些数字,但 GPT-OSS 模型的计算效率令人鼓舞。在实践中,这种效率可以通过批处理和量化等优化进一步提高,这可以进一步最大化特定部署配置的效率。
新的 GPT-OSS 模型令人印象深刻的效率对人工智能领域来说是个好消息,因为它表明模型可以同时具有令人难以置信的效率和高性能。我们将在定于 9 月发布的下一版 AI 能源得分排行榜中收录这些模型以及我们测试过的所有其他模型。我们还在进行更深入的工作,探讨批处理和输出长度等因素如何影响能源效率。敬请关注此主题的未来工作!
致谢
感谢 Brigitte Tousignant 和 Yacine Jernite 对这篇博文的反馈和建议。