Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

机器学习文档工具概览

模型卡片框架的开发始于 2018 年,其灵感来源于自然语言处理数据声明(Bender & Friedman, 2018)和数据集数据表(Gebru 等人,2018)等主要的文档框架工作。自从提出模型卡片以来,已经提出了许多其他工具来记录和评估机器学习开发周期的各个方面。这些工具(包括模型卡片和模型卡片之前提出的相关文档工作)可以根据其重点(例如,该工具关注机器学习系统生命周期的哪个部分?)和目标受众(例如,该工具为谁而设计?)来进行情境化。在下面的图 1-2 中,我们总结了几个突出的文档工具,并根据这些维度提供了每个工具的情境描述,并链接到示例。我们广泛地将文档工具分类为以下几组

  • 数据为中心,包括专注于机器学习系统生命周期中使用的数据集的文档工具
  • 模型和方法为中心,包括专注于机器学习模型和方法的文档工具;以及
  • 系统为中心,包括专注于机器学习系统的文档工具,包括模型、方法、数据集、API 和作为机器学习系统一部分相互交互的非 AI/ML 组件

这些分组不是互斥的;它们确实包含了机器学习系统生命周期中重叠的方面。例如,系统卡片专注于记录可能包含多个模型和数据集的机器学习系统,因此可能包含与数据为中心或模型为中心的文档工具重叠的内容。所描述的工具不是机器学习系统生命周期文档工具的详尽列表。一般来说,我们纳入了以下工具

  • 专注于机器学习系统生命周期某些(或多个)方面的文档
  • 包括发布旨在重复使用、采用和调整的模板

机器学习文档工具摘要

图 1

机器学习系统生命周期阶段 工具 简要描述 示例
数据 数据表 (Gebru 等人,2018) “我们建议每个数据集都应附带一份数据表,记录其动机、创建、组成、预期用途、分发、维护和其他信息。” 例如,请参阅 Ivy Lee 的存储库,其中包含示例
数据 数据声明 (Bender & Friedman, 2018)(Bender 等人,2021) “数据声明是对数据集的描述,它提供了上下文,使开发人员和用户能够更好地理解实验结果如何泛化、软件如何被适当地部署,以及在基于该软件构建的系统中可能反映出哪些偏差。” 请参阅 自然语言处理数据声明研讨会
数据 数据集营养标签 (Holland 等人,2018) “数据集营养标签……是一个诊断框架,它通过在人工智能模型开发之前提供数据集“成分”的提炼且全面的概述,降低了标准化数据分析的障碍。” 请参阅 数据集营养标签
数据 自然语言处理数据集卡片 (McMillan-Major 等人,2021) “我们展示了在自然语言处理 (NLP) 中创建文档模板和指南的两个案例研究:Hugging Face (HF) 数据集中心[^1] 和生成及其评估和指标 (GEM) 的基准。在这两种情况下,我们都使用“数据卡片”一词来指代数据集的文档。” 请参阅 (McMillan-Major 等人,2021)
数据 数据集开发生命周期文档框架 (Hutchinson 等人,2021) “我们引入了一个严格的数据集开发透明度框架,支持决策和问责制。该框架利用数据集开发的循环、基础设施和工程特性,借鉴软件开发生命周期中的最佳实践。” 请参阅 (Hutchinson 等人,2021),附录 A 中的模板
数据 数据卡片 (Pushkarna 等人,2021) “数据卡片是关于机器学习数据集各个方面的基本事实的结构化摘要,利益相关者在数据集的生命周期中需要这些摘要来进行负责任的人工智能开发。这些摘要提供了对塑造数据并因此塑造模型的过程和理由的解释。” 请参阅 数据卡片手册 GitHub 存储库
数据 众包工作表 (Díaz 等人,2022) “我们引入了一个新颖的框架,即众包工作表,供数据集开发人员在数据标注管道的各个阶段(任务制定、注释者选择、平台和基础设施选择、数据集分析和评估以及数据集发布和维护)促进关键决策点的透明记录。” 请参阅 (Díaz 等人,2022)
模型和方法 模型卡片 Mitchell 等人 (2018) “模型卡片是伴随训练好的机器学习模型的简短文档,提供在各种条件下进行的基准评估……这些条件与预期的应用领域相关。模型卡片还披露模型预期使用的上下文、性能评估程序的详细信息以及其他相关信息。” 请参阅 https://huggingface.co/models模型卡片指南模型卡片示例
模型和方法 价值卡片 Shen 等人 (2021) “我们提出了价值卡片,这是一个由协商驱动的工具包,用于让计算机科学学生和从业人员了解基于机器学习的决策系统带来的社会影响……价值卡片鼓励对不同的机器学习性能指标及其潜在权衡进行调查和讨论。” 请参阅 Shen 等人 (2021),第 3.3 节
模型和方法 方法卡片 Adkins 等人 (2022) “我们建议使用方法卡片来指导机器学习工程师完成模型开发过程……信息包含规范性和描述性元素,主要侧重于确保机器学习工程师能够正确使用这些方法。” 请参阅 Adkins 等人 (2022),附录 A
模型和方法 机器学习模型消费者标签 Seifert 等人 (2019)

“我们建议为经过训练和发布的机器学习模型发布消费者标签。这些标签主要面向机器学习非专业人士,例如机器学习系统的操作员、决策的执行者以及决策主体本身。” 参见 Seifert 等人 (2019)
系统 事实清单 Arnold 等人 (2019) “事实清单将包含有关 AI 服务所有相关属性的部分,例如预期用途、性能、安全性和安全性。性能将包括适当的准确性或风险度量以及时间信息。” 参见 IBM 的 AI 事实清单 360Hind 等人,(2020)
系统 系统卡 Procope 等人 (2022) “系统卡旨在通过向利益相关者提供机器学习系统不同组件的概述、这些组件如何交互以及系统如何使用不同的数据和受保护的信息,来提高机器学习系统的透明度。” 参见 Meta 的 Instagram Feed 排名系统卡
系统 强化学习奖励报告 Gilbert 等人 (2022) “我们概述了一个记录已部署学习系统的框架,我们称之为奖励报告……我们将奖励报告概述为实时文档,跟踪特定自动化系统正在优化的设计选择和假设的更新。它们旨在跟踪系统部署中产生的动态现象,而不仅仅是模型或数据的静态属性。” 参见 https://rewardreports.github.io
系统 鲁棒性健身房 Goel 等人 (2021) “我们确定了评估自然语言处理系统的挑战,并提出了以鲁棒性健身房 (RG) 形式的解决方案,这是一种简单且可扩展的评估工具包,它统一了 4 种标准评估范式:子群体、转换、评估集和对抗性攻击。” 参见 https://github.com/robustness-gym/robustness-gym
系统 关于机器学习 (ABOUT ML) Raji 和 Yang,(2019) “关于机器学习 (ABOUT ML)(机器学习生命周期理解和透明度的注释和基准测试)是由 PAI 领导的一项多年、多利益相关方的倡议。该倡议旨在汇集各种不同的观点,以大规模地开发、测试和实施机器学习系统文档实践。” 参见 ABOUT ML 的资源库

数据中心文档工具

一些提出的文档工具侧重于机器学习系统生命周期中使用的数据集,包括在持续循环中训练、开发、验证、微调和评估机器学习模型。这些工具通常关注数据生命周期的许多方面(可能是针对特定数据集、数据集组或更广泛地),包括数据如何组装、收集、注释以及如何使用。

  • 扩展电子行业数据表的概念,Gebru 等人 (2018) 提出数据集的数据表,以记录与数据集创建、潜在用途和相关问题相关的详细信息。
  • Bender 和 Friedman (2018) 提出自然语言处理的数据声明。Bender、Friedman 和 McMillan-Major (2021) 更新了原始数据声明框架,并提供了资源,包括编写数据声明指南以及在第一个版本和更新版本之间进行翻译[^2]。
  • Holland 等人 (2018) 提出数据营养标签,类似于食品的营养成分表和隐私披露的数据营养标签,作为分析和做出有关数据集决策的工具。数据营养标签团队在 2020 年发布了标签的更新设计和界面 (Chmielinski 等人,2020)
  • McMillan-Major 等人 (2021) 描述了自然语言处理数据卡的开发过程和生成的模板,这些模板以 Hugging Face Hub 上的数据卡[^3] 和作为自然语言处理基准生成及其评估指标 (GEM) 环境[^4]一部分的数据集数据卡的形式出现。
  • Hutchinson 等人 (2021) 描述了全面数据集文档的需求,并借鉴软件开发实践,提供了记录数据集开发生命周期各个方面的模板(出于表格 1 和 2 的目的,我们将他们的框架称为数据集开发生命周期文档框架)。
  • Pushkarna 等人 (2021) 将数据卡作为数据卡手册的一部分提出,这是一种以人为中心的文档工具,侧重于工业和研究中使用的数据集。

模型和方法中心文档工具

另一组文档工具可以被认为侧重于机器学习模型和机器学习方法。这些包括

  • Mitchell 等人 (2018) 提出模型卡用于模型报告,以配合经过训练的机器学习模型,并记录与评估、使用和其他问题相关的问题

  • Shen 等人 (2021) 提出价值卡,用于向学生和从业者传授与机器学习模型相关的价值观

  • Seifert 等人 (2019) 提出机器学习模型的消费者标签,以帮助使用或受模型影响的非专家了解与模型相关的重要问题。

  • Adkins 等人 (2022) 分析了描述性文档工具的各个方面——他们认为其中包括模型卡和数据表——并主张增加机器学习工程师的规范性工具。他们提出了方法卡,侧重于机器学习方法,并在设计时主要考虑了模型开发人员和审查员等技术利益相关者。

    • 他们部分通过以下陈述设想了模型卡和方法卡之间的关系:“我们提出的部分……[在方法卡模板中] 侧重于足以使用定义的输入、输出和任务生成适当的机器学习模型的机器学习方法。这些方法的示例包括目标检测方法(如单次检测器)和语言建模方法(如生成式预训练转换器 (GPT))。可以使用这些方法创建模型卡。”

    • 他们还指出“虽然模型卡和事实清单主要侧重于记录现有模型,但方法卡更侧重于创建和训练这些模型时需要考虑的底层方法和算法选择。粗略地打个比方,如果模型卡和事实清单提供有关熟食的营养信息,则方法卡提供食谱。”

系统中心文档工具

系统中心文档工具不是专注于特定模型、数据集或方法,而是着眼于模型如何与其他模型、数据集、方法以及其他机器学习组件交互以形成机器学习系统。

  • Procope 等人 (2022) 提出系统卡来记录和解释 AI 系统——可能包括多个机器学习模型、AI 工具和非 AI 技术——这些系统协同工作以完成任务。
  • Arnold 等人 (2019) 将消费者产品的合格声明的概念扩展到 AI 服务,提出事实清单来记录“AI 服务”的各个方面,这些服务通常通过 API 访问,并且可能由多个不同的机器学习模型组成。Hind 等人 (2020) 分享了构建事实清单的思考。
  • Gilbert 等人 (2022) 提出强化学习奖励报告系统,认识到机器学习系统的动态特性以及文档工作需要纳入部署后性能的考虑,尤其是在强化学习系统中。
  • Goel 等人 (2021) 开发了鲁棒性健身房,这是一种用于测试现实世界系统中深度神经网络各个方面的评估工具包,允许跨评估范式进行比较。
  • 通过ABOUT ML 项目 (Raji 和 Yang,2019),人工智能伙伴关系正在协调机器学习社区中利益相关者群体的努力,以开发用于机器学习系统的全面、可扩展的文档工具。

模型卡片的演变

自 2018 年 Mitchell 等人提出模型卡片以来,各种组织都采用了并调整了模型卡片,包括开发和托管机器学习模型的主要科技公司和初创企业[^5]、描述新技术的科研人员[^6],以及评估各种项目模型的政府利益相关方[^7]。模型卡片也作为人工智能伦理教育工具包的一部分出现,并且许多组织和开发者创建了用于自动化或半自动化创建模型卡片的实现。附录 A 提供了一组由不同组织创建的各种类型机器学习模型的模型卡片示例(包括大型语言模型的模型卡片)、模型卡片生成工具和模型卡片教育工具。

Hugging Face Hub 上的模型卡片

自 2018 年以来,托管和共享模型卡片的新平台和媒介也应运而生。例如,与本项目特别相关的是,Hugging Face 在 Hugging Face Hub 上将模型卡片托管为与机器学习模型关联的存储库中的自述文件。因此,模型卡片成为 Hugging Face Hub 上模型用户的突出文档形式。作为我们对模型卡片分析的一部分,我们为 Hugging Face Hub 上的几十个机器学习模型开发并提出了模型卡片,使用 Hub 的拉取请求 (PR) 和讨论功能来收集模型卡片的反馈,验证模型卡片中包含的信息,并在 Hugging Face Hub 上发布模型卡片。在本指南编写之时,Hugging Face 在 Hugging Face Hub 上的所有模型都在 Hub 上都有一个关联的模型卡片[^8]。

Hugging Face Hub 上上传的大量模型(在撰写本文时为 101,041 个模型)使我们能够探索 Hub 上模型卡片中的内容:我们首先分析了语言模型的模型卡片,以识别模式(例如重复的部分和子部分),目的是回答一些最初的问题,例如

1) 这些模型中有多少个有模型卡片?

2) 下载量中包含关联模型卡片的百分比是多少?

从我们对 Hub 上所有模型的分析中,我们注意到下载量最多的来自前 200 个模型。

在继续关注大型语言模型(按下载量排序,并且首先只选择有模型卡片的模型)的同时,我们注意到了它们各自的模型卡片中最常出现的章节。

虽然模型卡片中的一些标题在不同模型之间可能有所不同,但我们将每个模型卡片中每个章节的组件/主题进行分组,然后将其映射到最常出现的章节标题(主要是在前 200 个下载量最多的模型中找到,并在 Bloom 模型卡片的帮助/指导下)。

[^1]: 对于每个工具,描述摘自第二列中列出的链接论文。

[^2]: 请参阅 https://techpolicylab.uw.edu/data-statements/

[^3]: 请参阅 https://techpolicylab.uw.edu/data-statements/

[^4]: 请参阅 https://techpolicylab.uw.edu/data-statements/

[^5]: 例如,参见 Hugging Face Hub、Google Cloud 的模型卡片 https://modelcards.withgoogle.com/about

[^6]: 请参阅附录 A。

[^7]: 请参阅 GSA/美国人口普查局在模型卡片生成器上的合作。

[^8]: “Hugging Face 模型”指的是由 Hugging Face(而非其他组织)在 Hub 上共享的模型。正式地说,这些模型的模型 ID 中没有“/”。


请引用为:Ozoani, Ezi 和 Gerchick, Marissa 和 Mitchell, Margaret。模型卡片指南。Hugging Face,2022 年。 https://huggingface.co/docs/hub/en/model-card-guidebook

< > 在 GitHub 上更新