对大型语言模型 (LLM) 说“谢谢”并非免费 — 衡量礼貌行为的能源成本

社区文章 发布于 2025 年 6 月 12 日

如果对你最喜欢的聊天机器人说一声简单的“谢谢”需要付出能源代价,那会怎样?

对语言模型说“谢谢”的成本是多少?

在日常对话中,以一句礼貌的“谢谢”结束是很常见的。但当对话是与大型语言模型(LLM)进行时,这个小小的姿态并非真的免费。在幕后,即使是简单的“谢谢!”也会触发对数十亿参数的完整推理传递,消耗计算资源和能源。

与人类不同,LLM 在对话结束后不会记住对话内容——除非这些信息被明确存储在某个地方。因此,从模型的角度来看,说“谢谢”没有任何功能目的。然而,Sam Altman 表示,对 ChatGPT 说“请”和“谢谢”已经让 OpenAI 花费了数千万美元。

对 LLM 保持礼貌的能源成本是多少?

为了找出对 LLM 保持礼貌的实际成本,我们创建了一个包含数千个聊天对话的定制数据集,每个对话都以一句最终的“谢谢”结束,并测量了模型响应所需的能量。

Example of a polite thank you message
图 1:发送给 ChatGPT 的礼貌“谢谢”消息及其响应示例。

那么,说一声“谢谢”要花多少钱?

我们测量了 LLaMA 3–8B 模型在 10,000 次对话中对单一“谢谢!”响应的平均能耗。在 NVIDIA H100 GPU 上,这种简单的礼貌行为消耗了

  • GPU 消耗 0.202 ± 0.096 瓦时
  • CPU 消耗 0.024 ± 0.014 瓦时
  • RAM 消耗 0.019 ± 0.010 瓦时

总能耗平均为 ≈ 0.245 瓦时,大致相当于为 5 瓦 LED 灯泡供电约 3 分钟

Energy consumption by device Histogram GPU energy
图 2:左图 — 各设备(GPU、CPU、RAM)单次响应的平均能耗。右图 — 响应“谢谢”消息的 GPU 能耗直方图。

图 2(左)显示 GPU 使用率遥遥领先,且方差很大——这表明对运行时条件(主要是输入/对话和输出长度)高度敏感。图 2(右)绘制了每次生成 GPU 能耗的分布图。它呈现出右偏高斯形状,并向更高的值拖着长尾——这表明某些“谢谢”生成消耗的能量远高于平均水平

模型缩放:从 Qwen-0.5B 到 Qwen-14B

为了更好地理解模型大小如何影响能耗,我们将测量范围扩展到 Qwen 2.5 系列中的多个模型——从 0.5B14B 参数——以及 LLaMA 3.1–8BMistral–7B

有趣的是,更大的模型也倾向于生成更长的回复。在我们的礼貌“谢谢”数据集上,我们观察到 Qwen 14BLLaMA 3–8B 等模型通常返回比其小型模型更详细的完成。

Boxplot of GPU energy usage vs model size
图 3:GPU 能耗与模型大小的箱线图。

在图 3 中,我们绘制了 GPU 能耗与模型总大小的关系。曲线并非严格线性——较小的模型效率更高,但大型模型以更高的能源成本获得表达能力和上下文处理能力。

这对用户意味着什么?

对语言模型说“谢谢”的能耗难以估算,且取决于许多相互关联的因素。我们的分析显示,对于 LLaMA 3–8B 模型,一次简单的“谢谢”消耗约 0.245 瓦时,但此成本会因对话历史大小、响应长度和模型规模而显著变化。像我们测试的 14B 参数 Qwen 这样更大的模型,每次交互消耗的能耗高达 3–4 倍

超出我们研究范围的关键因素显著影响实际成本:生产服务器(如 TGI)中的动态批处理可以通过并行处理将每次请求的能耗降低 10-15 倍,而包括冷却、网络和空闲服务器时间在内的基础设施开销增加了大量的基线消耗。地理位置影响冷却需求和电网碳强度,而硬件配置和优化技术可以降低能耗。

当这些变化扩展到每天数百万次用户交互(估计涉及数百亿参数的专有模型)时,将变得非常显著。如果每次礼貌互动对这种大规模部署消耗 1–5 瓦时,那么礼貌行为的每日总能耗可能达到数兆瓦时,相当于为数百个家庭供电——这凸显了在无处不在的 AI 交互时代,看似微不足道的礼节如何迅速扩大规模。

社区

一千万美元里包含多少个“谢谢”的响应?——我想知道山姆是如何得出这个特定数字的

出色的工作,朱利安。这对人工智能的未来来说是一个重要课题!!!!

我要更努力地说“谢谢”

注册登录 以发表评论