减少、再利用、回收:为什么开源是可持续发展的胜利

社区文章 发布于2025年5月7日

image/png

近年来,开源AI模型在整个生态系统中越来越受欢迎,在文本生成、音频转录和推理等各种任务中,LLaMa、DeepSeek、Phi和Qwen等开源模型推动了其发展。随着数百万模型在社区中共享和使用,这也提高了整个领域的可访问性、民主化和创新。但我们如何确保这场开源革命是可持续的呢?

实现这一目标的一种方法是回归到3R原则(减少、再利用、回收),这些是环境保护的基本原则,同样适用于AI领域。

减少:SmolLMs、蒸馏和量化

总结一下——训练并与社区分享更小的模型,这些模型具有与更大模型相似(或更好!)的性能,可以帮助鼓励使用计算最优模型,并在整体效率方面推动极限。

第一个也是最重要的“R”——环境保护倡导者优先考虑的——是减少我们日常生活中消耗的资源或物品的数量。无论是少买衣服还是缩小住房面积,重点都放在使我们的生活符合我们所处的地球边界。

Smol 模型(和数据集!)

部署模型可能会迅速增加成本,图像生成任务使用的能源量是文本相关任务的数倍,而“通用”模型比任务专用模型多消耗20-30倍的能源(来源)。

Hugging Face 训练的最新“smolLM”模型系列,参数分别为1.35亿、3.6亿和17亿,证明了设计和训练得当的小型LLM可以取得令人印象深刻的结果。这些模型专门设计得小巧,可以在包括智能手机在内的可访问硬件上本地运行。

image/png

通过明确地精心策划定制的、高质量的训练语料库和定制的训练方法,SmolLMs能够与比它们大数倍的先进LLM竞争。原始的SmolLM系列之后又推出了第二个模型家族(SmolLM 2)以及最小的视频语言模型SmolVLM2,这表明即使在多模态设置下,小模型也能发挥巨大作用。

蒸馏和量化

除了明确训练为更小、计算密集度更低的模型之外,还可以对现有训练模型进行处理,使其计算密集度降低。其中一种技术称为知识蒸馏,它涉及将知识从一个大模型转移到一个小模型。虽然这不会减少模型初始训练所需的计算量,但它显著减少了部署模型所需的计算量。例如,虽然广受欢迎的DeepSeek R1模型拥有6710亿参数(需要多张高性能GPU才能部署!),但DeepSeek团队也开源了参数范围从15亿到700亿的蒸馏版本模型,并且具有同样高的性能。

另一种减少模型部署所需内存和计算量的流行技术是量化,它涉及使用更低的精度(例如,8位而不是32位)来表示模型。这意味着诸如矩阵乘法之类的操作可以更快地执行(因为要执行的操作更少)。GGUF、AWQ和AutoGPTQ等数据格式专门针对模型的快速加载和保存进行了优化,这使得可以将PyTorch中开发的现有模型进行转换,极大地提高了它们的效率。

image/png

衡量这些技术对不同模型和硬件类型相对优势的一种方法是AI能耗评分项目,它提出了对不同模型和任务的能效进行基准测试的标准化方法。排行榜包含数百个现有开源模型,该方法可用于对模型和优化方法进行排名和比较,并为手头的任务选择最有效的模型。

再利用: 使用现有模型

总结一下——与训练新模型相比,重用模型可以节省大量二氧化碳排放,而且在HF Hub上搜索现有模型而不是从头开始训练是一个好习惯。

“越大越好”一直是AI研究和实践的主导范式,这受到“缩放定律”的推动,该定律规定更大模型的性能优于更小模型。这不可避免地导致计算量不断增加,许多最新的最先进大型语言模型(LLM)据说训练成本高达数亿美元。这也带来了环境成本,因为为这些计算提供动力的能源主要来自天然气等不可再生资源。研究估计,根据模型的训练地点和方式,这种成本在25到500吨之间。

image/png

作为最大的开源AI模型和数据集存储库,Hugging Face Hub使AI社区成员能够轻松找到执行不同任务的模型,从视觉问答到翻译和图像生成,使用预定义的管道。以前,开发人员会花费数小时“寻找”合适的模型并将其适配到他们特定的框架和硬件设置(CUDA版本很痛苦,不是吗?),现在他们可以轻松地从Hugging Face Hub查找、下载和部署数百万个模型。

image/png

有趣的是,许多下载量最大的模型并不是拥有数千亿参数的模型,而是像MobileNet-v3(255万参数!)和BERT-base(1.1亿参数)这样更轻量级的模型,这反映了小型、简单模型在各种应用中的实际使用和寿命。由于许多AI社区成员自称为“GPU贫困户”(即无法轻易获得大量云算力),因此重用既需要较少计算能力又经过实践检验的模型,使其更具可访问性。

值得一提的是,对于某些模型,如 Phi 2,其量化 GGUF 版本的下载量是原始模型的 30 倍以上,而 DeepSeek R1 的蒸馏 1.5B 版本32B 版本的下载量均超过了原始版本。这表明社区对更小、计算效率更高但仍能提供与大型模型相同性能的模型有着巨大的需求。

回收:微调和调整模型

总结一下——可以调整现有模型,这不仅减少了训练所需的计算量和能耗,还提高了能耗要求和碳排放的透明度和可追溯性。

回收是3R中的最后一项,但幸运的是,与回收塑料瓶和铝罐等物理对象不同,回收AI模型实际上效率更高,对环境的危害更小。

诸如 LoRA(大型语言模型的低秩适应)等技术涉及在现有模型中插入少量新权重,并仅训练这些权重,这在适应模型生成新图像风格的同时,显著减少了所需的计算量。现在有数千个社区训练的 LoRA 模型,可以用于从服装设计到制作漫画书的各种用途,而无需从头开始训练模型。

image/png

诸如AutoTrain之类的库也使得将基础模型微调到特定任务和数据集变得容易,这减少了它们所需的计算量(因为任务特定模型在各方面考虑下所需的计算量较少(来源))。通过自动调整每个模型-任务组合的超参数,AutoTrain也降低了AI开发的门槛,允许非技术用户创建自己的模型,而不是使用专有AI系统和API,这些系统和API依赖于“通用”模型,同样不可避免地会使用更多计算。

image/png

开发自己的模型并选择其部署地点和方式,还能让您更好地控制所使用的能源(例如,选择由可再生能源供电的数据中心),以及针对任务优化的硬件,无论是强大的GPU还是轻量级的CPU。它还允许您使用像CodeCarbon这样的工具来测量和报告您的能耗和环境影响,为您提供商业AI工具所不具备的透明度(因为我们仍然不知道ChatGPT的碳足迹是多少!)。将这种成本反映在ESG报告和内部核算中,还可以帮助组织和个人更好地了解使用AI如何影响其对可持续发展的承诺,并采取具体行动减少其影响。

结论

随着人工智能变得越来越普及,我们在选择模型和构建工具及应用程序时,务必将效率和能耗纳入考量。开源人工智能让社区成员对他们开发和部署的模型拥有更多控制权,并开始培养一种在人工智能对环境影响方面提高透明度和问责制的文化。

社区

注册登录发表评论