AI 代理可持续吗?这取决于多种因素

在我们最近的关于 AI 代理和伦理的博文引起广泛关注后,本文将进一步探讨代理开发的一个重要方面:可持续性。我们如何更好地了解代理对环境的影响?
总结:
与任何新技术一样,构建 AI 代理有多种方法,设计选择至关重要。是选择依赖规模和商业黑盒模型的蛮力方法,还是选择使用像 HF 的 smolagents 这样连接特定任务模型的开源框架的模块化方法,这在成本和能耗方面都会产生深远影响(参见最近一篇关于此主题的论文)。为了说明规模,这两种选择之间的成本差异可能是几个数量级,尤其是现在我们看到小型模型(1B-olympicCoder)的性能与最大的 LLM(Claude Sonnet 3.5)相当,并且任务日益复杂。因此,通过明智的选择来找到正确的平衡对于使技术更可靠、更具成本效益和更可持续至关重要。
引言
最近,AI 代理已成为开发和与 AI 工具交互的新兴热门范式——从从零开始编写代码到基于不同来源总结复杂主题,并能够独立决策和规划,无需明确的人工反馈。在底层,AI 代理可以使用各种 AI 模型——无论是 HF Hub 上一百多万个公共开源模型中的任何一个,通过 API 查询的专有模型,还是两者的组合。
但是,AI 代理比其他类型的 AI 系统更具可持续性吗?与大多数环境问题一样,这取决于多种因素。这篇博文涵盖了三个主要因素:1)所使用的模型类型,2)模态,以及 3)我们如何决定使用哪些系统。归根结底,重要的不是 AI 系统是否是代理,而是它在底层利用的方法类型。
为正确的(代理)任务选择正确的模型类型
训练和部署 AI 模型需要使用计算资源,无论是专用硬件(如 GPU 和 TPU)还是通用硬件(如 CPU)。为这些硬件以及底层基础设施(如网络、存储和数据传输)供电需要大量的能源。例如,一块 NVIDIA A100 GPU 在满负荷运行时会消耗 300W 的能量,这大约是 LED 灯泡的 40 倍。像 Code Carbon 这样的工具(已集成到 Transformers 库中)可以帮助用户实时估算特定 AI 模型在训练和推理时使用的能量。
在去年我们进行的《能耗密集型处理》研究中,我们使用 Code Carbon 测量了各种不同任务的 AI 模型的能耗,比较了不同大小、架构和范式的模型。通过比较任务专用模型(即仅训练用于执行单一任务的模型,如问答或情感分析)与多用途模型(能够执行多项任务的模型),我们发现,例如在 Wikipedia 文章中查找加拿大首都这样的问答任务,生成式多用途模型比抽取式任务专用模型消耗的能量多 30 倍以上。
![]() |
---|
图片引自 Luccioni 等人 (2024) |
对于摘要等任务,差距较小,任务特定模型和多功能模型之间存在 5-7 倍的差异。所使用的确切能量量因模型大小、架构以及模型输入和输出长度而异,但模式保持不变:与任务特定模型相比,生成式、任务特定模型(也称为“基础模型”或“通用模型”)在任务中消耗更多能量和更多计算资源。
AI 代理与大型 LLM 不同,它们旨在执行特定任务——无论是帮助客户在线换货,还是分析多年的财务数据以获取洞察并生成报告。这些代理利用的模型类型对其可持续性有巨大影响。例如,客服代理可以在幕后利用一个只能将自然语言转换为 SQL 代码的小型模型(例如 SQLCoder-7b-2),或者一个能够执行各种基于文本任务(包括代码生成)的通用 LLM(例如 QwQ-32B)。根据模型的大小和架构,这可能导致能源效率的巨大差异。
AI 能源评分项目是 Hugging Face 主导的一项倡议,旨在为各种不同任务的 AI 模型进行能效基准测试和比较。我们已经评估了数百个开源模型(并在我们的排行榜上展示了这些结果),这可以帮助开发人员在为各种不同任务开发代理系统时,考虑到效率来选择模型。
模态很重要
尽管“大型语言模型”一词一直存在,但我们称之为 LLM 的许多当前 AI 模型实际上是多模态的,它们可以将图像、视频和音频作为输入,并生成文本转录、描述和答案作为输出。代理也可能如此,因为它们可以利用各种信息源来执行任务。但输入和输出模态都会影响 AI 模型的能耗,并且也可能对代理产生类似的影响。
将图像和文本输入映射到输出类别的任务(例如,根据一组类别对图像进行分类,或者将推文分类为正面或负面情绪)比从头开始生成文本或图像的任务能耗更低。我们还发现,对于这两类任务,基于图像的任务比基于文本的任务能耗更高,分类任务高出 3 倍,生成任务甚至高出 60 倍!这意味着,在代理环境中,如果代理每天处理数百万次查询,并且它们正在处理图像并生成新内容,那么能耗可能会迅速累积。
![]() |
---|
图片引自 Luccioni 等人 (2024) |
我们还发现,生成文本的长度也会影响能源使用:对于像摘要这样的序列到序列任务,在其他条件相同的情况下,生成的标记越多,使用的能源就越多。由于许多“代理”任务实际上都是序列到序列的——例如将输入查询翻译成编程代码,或者将大量报告总结成更短的摘要,因此考虑所有这些生成的文本在未来几个月和几年中将如何累积起来非常重要。此外,随着更多视觉代理被开发出来直接与用户界面交互,添加新任务和设置以反映这些新用例将非常重要。
选择更可持续的未来之路
与任何领域一样,AI 世界也受潮流主导——几年前被认为是先进的技术(谁还记得 word2vec?)被更新一代的技术(BERT 及其衍生产品)所取代,而这些技术迟早也会让位于下一波热门模型(今天的 Transformers)。然而,就能源而言,十年前基于向量的模型比当前一代的 LLaMas 和 GPT 效率高得多,这就是为什么随着时间推移跟踪该领域的能源需求至关重要。在与工业界和学术界合作者共同撰写的最新论文中,我们讨论了 AI 中“越大越好”方法的追求,并探讨了这可能产生的潜在环境和社会影响,从不断膨胀的环境足迹到有利于大型企业而非学术界研究人员和初创公司的权力集中。
在上述论文中,我们反思了任务性能与效率(或资源使用)之间的权衡,并呼吁 AI 社区在开发和部署模型时同时考虑两者,追求“帕累托前沿”以指导可持续发展。
![]() |
---|
图片引自 Varoquaux 等人 (2024) |
这种追求包括重视小型系统研究,报告模型的规模和成本,以及使用与所解决问题相对应的 AI 方法。在代理的背景下,这可能意味着使用更小、更高效的模型,以及创建依赖多个互连组件的流线型系统——例如,一个意图分类器与几个基于用户查询激活的特定任务模型耦合。此外,尽管与前几代更单一的 AI 模型相比,评估代理系统的能源需求可能更困难,但使用 Code Carbon 等工具评估不同的系统组件并将此信息传达给用户可以帮助指导明智的决策和 AI 的部署。
我们还指出,开源模型提供了独特的环境透明度,允许在不同硬件组件上进行精确的本地部署能耗跟踪。这些测量结果可以记录并共享在模型卡中,为 AI 社区提供重要的可持续性数据。开源模型还可以通过允许开发人员在现有社区基础模型的基础上进行构建,从而减少训练和部署自定义模型所需的计算量。要深入了解 AI 系统的环境影响测量和披露,请参阅我们最近的入门指南。
结论
随着我们将越来越多的代理 AI 系统部署到越来越多的应用程序中,考虑它们的能源需求和环境影响对于指导可持续发展至关重要。虽然无法判断代理是否比前几代 AI 模型更具可持续性,但通过考虑我们使用的模型的模态和特异性以及使用方式,我们可以将进步引向正确的方向。本博客文章概述了在开发和部署代理 AI 系统时需要考虑的一些因素和最佳实践,我们希望它能帮助 AI 社区共同前进。
致谢
感谢 Chun Te Lee 为本篇文章制作了精美的横幅!
链接项目和工具概述:
链接资源概述:
- AI 代理来了。现在怎么办?- 博客文章
- Hugging Face 模型卡
- AI 的环境影响——入门指南
- 能耗密集型处理:AI 部署的成本驱动因素是什么?
- AI 中“越大越好”范式的炒作、可持续性和代价
引用此博客文章:
如果您想引用这篇博客文章,请使用以下内容:
@misc{ai_agents_sustainaility_hf_blog,
author = {Sasha Luccioni and Brigitte Tousignant and Yacine Jernite},
title = {Are AI Agents Sustainable? It depends},
booktitle = {Hugging Face Blog},
year = {2025},
url = {https://huggingface.co/blog/ai-agent-sustainability},
}