AI 模型的能耗分数

社区文章 发布于 2024 年 5 月 9 日

背景与灵感——美国环保署能源之星评级

每次我们使用电子设备,如电脑、手机,甚至洗衣机,我们都在消耗能量为设备供电;根据能量的产生方式,这可能导致温室气体(GHG)排放。1992 年,美国环境保护署(EPA)启动了能源之星计划,旨在为不同类型的设备制定能效标准,并帮助消费者做出明智的决策。在过去的 30 年中,能源之星计划已减少了数十亿吨温室气体排放,并涵盖了数十种产品类别,从数据中心到洗碗机。

图片来源:Energystar.gov

AI 能耗分数项目提案

每次向 AI 模型发送查询时,我们也会消耗能量,无论是在我们本地的计算机上还是在云服务器上。我们消耗的能量量取决于模型的特性,例如其大小和架构,以及其部署方式,即所做的优化和工程选择。

AI 能耗分数项目旨在开发一套 AI 模型部署评分系统,该系统将指导社区成员根据模型的能效选择用于不同任务的模型(及其运行方式),并分析实施选择对不同模型的下游能耗的影响。

本文介绍了我们为开发一个广泛适用的 AI 模型能耗评级系统而进行的初步工作,该系统将**与其他指标结合使用**,例如任务特定性能指标。此处做出的选择代表了我们为该项目奠定坚实基础的方法,并且旨在在后续版本中不断发展以增加其广度和稳健性;为此,我们欢迎早期反馈!

任务和模型

由于最初的能源之星评级旨在涵盖各种用例和消费产品,我们选择了 10 个流行的任务,涵盖语言、音频和计算机视觉,包括多模态任务。通过测试不同任务中的各种模型,我们旨在涵盖与不同群体相关的不同用例和 AI 应用

语言

  • 文本生成
  • 摘要
  • 抽取式问答
  • 文本分类
  • 语义相似性

视觉

  • 图像分类
  • 目标检测

音频

  • 自动语音识别

多模态

  • 文本到图像
  • 图像到文本

我们为每个任务开发了一个测试数据集,包含每个任务至少 3 个数据集的 1,000 个样本,以代表不同的用例:例如,文本生成任务数据集包含来自 WikiTextOSCARUltraChat-10K 的随机样本。所有数据集都可以在我们的 Hub 组织中找到。

对于每个任务,我们从 Hugging Face Hub 中抽取了流行且最新的模型样本,涵盖了各种大小和架构。对于每个任务,我们还定义了一组控制变量——控制批大小、生成的 token 数量、图像尺寸、采样率等,以实现模型的标准化测试。

初步结果

我们正在 Hugging Face 计算集群上的 NVIDIA H100 GPU 上运行第一系列任务:文本分类、图像分类、问答和文本生成。

我们的初步结果表明,模型之间的差异取决于任务的性质,从图像分类的最有效模型和最无效模型之间的 5 倍差异,到文本生成的 50 倍差异。

我们对任务特定(微调)模型与零样本(T5 系列)模型进行的实验结果与我们之前的工作中发现的结果一致——零样本模型在文本分类和问答等任务中比相同任务的单任务模型消耗的能量多几个数量级。

未来工作

在完成我们项目的所有十项任务测试后,我们的目标是为每项任务建立平均值和偏差,我们将使用这些数据来分配最终的 AI 能耗分数。然后,我们将通过“绿色 AI 排行榜”空间展示我们的结果,以允许社区成员比较和探索不同的开源模型和任务。

我们还将测试不同的实施选择和优化策略,以测试它们对模型效率的影响,旨在确定 AI 社区可以采取的简单步骤,以使其模型更高效。

请继续关注未来几周的更多结果!

-- 能耗分数项目团队(SashaYacineRegisIlyas

社区

注册登录以评论