Hub 文档
ML 文档工具概览
并获得增强的文档体验
开始使用
ML 文档工具概览
模型卡片框架在 2018 年的开发受到了自然语言处理的数据声明 (Data Statements for Natural Language Processing) (Bender & Friedman, 2018) 和数据集的数据表 (Datasheets for Datasets) (Gebru et al., 2018) 等主要文档框架工作的启发。自从模型卡片被提出以来,人们提出了许多其他工具来记录和评估机器学习开发周期的各个方面。这些工具,包括模型卡片和模型卡片之前提出的相关文档工作,可以根据其关注点(例如,该工具关注 ML 系统生命周期的哪个部分?)和目标受众(例如,该工具是为谁设计的?)进行情境化。在下面的图 1-2 中,我们总结了几个突出的文档工具的这些维度,提供了每个工具的情境描述,并链接到示例。我们将文档工具大致分为以下几组
- 以数据为中心,包括专注于机器学习系统生命周期中使用的数据集的文档工具
- 以模型和方法为中心,包括专注于机器学习模型和方法的文档工具;以及
- 以系统为中心,包括专注于 ML 系统(包括模型、方法、数据集、API 和作为 ML 系统一部分相互交互的非 AI/ML 组件)的文档工具
这些分组并非互斥;它们确实包括 ML 系统生命周期的重叠方面。例如,系统卡片侧重于记录可能包含多个模型和数据集的 ML 系统,因此可能包含与以数据为中心或以模型为中心的文档工具重叠的内容。所描述的工具是 ML 系统生命周期的非详尽文档工具列表。一般来说,我们包括的工具是
- 专注于 ML 系统生命周期的某些(或多个)方面的文档
- 包括旨在重复使用、采用和改编的模板的发布
ML 文档工具摘要
图 1
ML 系统生命周期阶段 | 工具 | 简要描述 | 示例 |
---|---|---|---|
数据 | 数据表 (Gebru et al., 2018) | “我们建议每个数据集都应附带一份数据表,记录其动机、创建、组成、预期用途、分发、维护和其他信息。” | 例如,参见 Ivy Lee 的 repo 及其示例 |
数据 | 数据声明 (Bender & Friedman, 2018)(Bender et al., 2021) | “数据声明是对数据集的表征,它提供上下文,使开发人员和用户能够更好地理解实验结果如何推广、软件如何适当部署以及基于该软件构建的系统可能反映哪些偏见。” | 参见 NLP 数据声明研讨会 |
数据 | 数据集营养标签 (Holland et al., 2018) | “数据集营养标签……是一个诊断框架,它通过在 AI 模型开发之前提供数据集“成分”的精简但全面的概述,降低了标准化数据分析的门槛。” | 参见 数据营养标签 |
数据 | NLP 数据卡片 (McMillan-Major et al., 2021) | “我们介绍了在自然语言处理 (NLP) 中创建文档模板和指南的两个案例研究:Hugging Face (HF) 数据集 Hub[^1] 以及生成及其评估和指标 (GEM) 的基准。在这两种情况下,我们都使用术语数据卡片来指代数据集的文档。” | 参见 (McMillan-Major et al., 2021) |
数据 | 数据集开发生命周期文档框架 (Hutchinson et al., 2021) | “我们引入了一个严格的数据集开发透明度框架,以支持决策制定和问责制。该框架利用数据集开发的周期性、基础设施和工程性质,借鉴了软件开发生命周期的最佳实践。” | 参见 (Hutchinson et al., 2021),附录 A 中的模板 |
数据 | 数据卡片 (Pushkarna et al., 2021) | “数据卡片是关于 ML 数据集各个方面的基本事实的结构化摘要,负责任的 AI 开发的数据集生命周期中的利益相关者需要这些摘要。这些摘要解释了塑造数据以及模型的流程和原理。” | 参见 Data Cards Playbook github |
数据 | CrowdWorkSheets (Díaz et al., 2022) | “我们引入了一个新颖的框架 CrowdWorkSheets,供数据集开发人员使用,以促进数据注释管道各个阶段的关键决策点的透明文档记录:任务制定、注释者选择、平台和基础设施选择、数据集分析和评估以及数据集发布和维护。” | 参见 (Díaz et al., 2022) |
模型和方法 | 模型卡片 Mitchell et al. (2018) | “模型卡片是随附经过训练的机器学习模型的简短文档,它在各种与预期应用领域相关的条件下提供基准评估……模型卡片还披露了模型的预期使用背景、性能评估程序的详细信息以及其他相关信息。” | 参见 https://huggingface.co/models、模型卡片指南 和 模型卡片示例 |
模型和方法 | 价值卡片 Shen et al. (2021) | “我们介绍了价值卡片,这是一个由审议驱动的工具包,旨在提高计算机科学专业的学生和从业人员对基于机器学习的决策系统的社会影响的认识……价值卡片鼓励对不同的 ML 性能指标及其潜在的权衡进行调查和辩论。” | 参见 Shen et al. (2021),第 3.3 节 |
模型和方法 | 方法卡片 Adkins et al. (2022) | “我们提出了方法卡片,以指导 ML 工程师完成模型开发过程……这些信息包括规范性和描述性元素,主要重点是确保 ML 工程师能够正确使用这些方法。” | 参见 Adkins et al. (2022),附录 A |
模型和方法 | ML 模型消费者标签 Seifert et al. (2019) | “我们建议为经过训练和发布的 ML 模型发布消费者标签。这些标签主要针对机器学习非专业人士,例如 ML 系统的操作员、决策的执行者和决策对象本身” | 参见 Seifert et al. (2019) |
系统 | 情况说明书 Arnold et al. (2019) | “情况说明书将包含有关 AI 服务所有相关属性的部分,例如预期用途、性能、安全性和安全性。性能将包括适当的准确性或风险度量以及时间信息。” | 参见 IBM 的 AI 情况说明书 360 和 Hind et al., (2020) |
系统 | 系统卡片 Procope et al. (2022) | “系统卡片旨在通过向利益相关者提供 ML 系统不同组件的概述、这些组件如何交互以及系统如何使用不同的数据和受保护信息来提高 ML 系统的透明度。” | 参见 Meta 的 Instagram Feed Ranking 系统卡片 |
系统 | RL 奖励报告 Gilbert et al. (2022) | “我们概述了一个记录已部署的学习系统的框架,我们称之为奖励报告……我们将奖励报告概述为跟踪对特定自动化系统正在优化的目标背后的设计选择和假设的更新的动态文档。它们的目的是跟踪系统部署产生的动态现象,而不仅仅是模型或数据的静态属性。” | 参见 https://rewardreports.github.io |
系统 | Robustness Gym Goel et al. (2021) | “我们发现了评估 NLP 系统的挑战,并以 Robustness Gym (RG) 的形式提出了解决方案,这是一个简单且可扩展的评估工具包,它统一了 4 种标准评估范例:子群体、转换、评估集和对抗性攻击。” | 参见 https://github.com/robustness-gym/robustness-gym |
系统 | ABOUT ML Raji and Yang, (2019) | “ABOUT ML(理解和透明化机器学习生命周期的注释和基准测试)是由 PAI 领导的一项多年、多方利益相关者的倡议。该倡议旨在汇集各种不同的观点,以大规模开发、测试和实施机器学习系统文档实践。” | 参见 ABOUT ML 的资源库 |
以数据为中心的文档工具
一些提议的文档工具侧重于 ML 系统生命周期中使用的数据集,包括用于训练、开发、验证、微调和评估机器学习模型作为持续周期的一部分。这些工具通常侧重于数据生命周期的许多方面(可能是针对特定数据集、数据集组或更广泛的数据集),包括数据的组装、收集、注释方式以及应如何使用数据。
- 扩展电子行业数据表的概念,Gebru et al. (2018) 提出了数据集的数据表,以记录与数据集的创建、潜在用途和相关问题相关的详细信息。
- Bender 和 Friedman (2018) 提出了自然语言处理的数据声明。Bender、Friedman 和 McMillan-Major (2021) 更新了原始数据声明框架,并提供了资源,包括编写数据声明的指南以及在第一个版本的架构和较新版本[^2] 之间进行转换的指南。
- Holland et al. (2018) 提出了数据营养标签,类似于食品的营养成分表和隐私披露的营养标签,作为分析数据集和做出决策的工具。数据营养标签团队在 2020 年发布了标签的更新设计和界面 (Chmielinski et al., 2020))。
- McMillan-Major 等人 (2021) 描述了 NLP 数据卡的开发过程和最终模板,这些数据卡以 Hugging Face Hub[^3] 上的数据卡以及作为生成及其评估指标 (GEM) 环境[^4] 的 NLP 基准组成部分的数据集的数据卡的形式呈现。
- Hutchinson 等人 (2021) 描述了对全面的数据集文档的需求,并借鉴软件开发实践,提供了用于记录数据集开发生命周期的多个方面的模板(为了表 1 和表 2 的目的,我们将他们的框架称为 数据集开发生命周期文档框架)。
- Pushkarna 等人 (2021) 提出了数据卡作为 数据卡剧本 的一部分,这是一种以人为中心的文档工具,专注于行业和研究中使用的数据集。
以模型和方法为中心的文档工具
另一组文档工具可以被认为是专注于机器学习模型和机器学习方法。这些工具包括:
Mitchell 等人 (2018) 提出了 模型卡,用于模型报告,以随附经过训练的 ML 模型,并记录与评估、使用和其他问题相关的问题
Shen 等人 (2021) 提出了 价值卡,用于向学生和从业者讲授与 ML 模型相关联的价值观
Seifert 等人 (2019) 提出了 ML 模型的消费者标签,以帮助使用模型或受模型影响的非专业人士理解与模型相关的关键问题。
Adkins 等人 (2022) 分析了描述性文档工具的各个方面——他们认为这些工具包括 模型卡 和数据表——并主张为 ML 工程师增加规范性工具。他们提出了方法卡,专注于 ML 方法,主要为模型开发人员和审查人员等技术利益相关者设计。
他们部分通过声明以下内容来设想模型卡和方法卡之间的关系:“我们建议的部分和提示……[在方法卡模板中] 侧重于足以生成具有已定义输入、输出和任务的适当 ML 模型的 ML 方法。这些方法的示例包括诸如 Single-shot Detectors 之类的对象检测方法和诸如 Generative Pre-trained Transformers (GPT) 之类的语言建模方法。可以使用这些方法创建的模型的模型卡。”
他们还指出:“虽然模型卡和情况说明书主要侧重于记录现有模型,但方法卡更侧重于创建和训练这些模型时需要考虑的潜在方法和算法选择。粗略地类比,如果模型卡和情况说明书提供有关熟食的营养信息,则方法卡提供食谱。”
以系统为中心的文档工具
以系统为中心的文档工具不是专注于特定的模型、数据集或方法,而是着眼于模型如何相互交互,以及如何与数据集、方法和其他 ML 组件交互以形成 ML 系统。
- Procope 等人 (2022) 提出了系统卡,用于记录和解释 AI 系统——可能包括多个 ML 模型、AI 工具和非 AI 技术——这些系统协同工作以完成任务。
- Arnold 等人 (2019) 将消费产品的符合性声明的想法扩展到 AI 服务,提出了情况说明书,以记录“AI 服务”的各个方面,这些服务通常通过 API 访问,并且可能由多个不同的 ML 模型组成。 Hind 等人 (2020) 分享了关于构建情况说明书的思考。
- Gilbert 等人 (2022) 提出了 强化学习的奖励报告 系统,认识到 ML 系统的动态性质以及文档工作需要纳入对部署后性能的考虑,特别是对于强化学习系统。
- Goel 等人 (2021) 开发了 Robustness Gym,这是一个评估工具包,用于测试真实世界系统中深度神经网络的多个方面,从而可以跨评估范例进行比较。
- 通过 ABOUT ML 项目 (Raji 和 Yang,2019),人工智能合作组织正在协调机器学习社区中各利益相关者群体的努力,以开发用于 ML 系统的全面、可扩展的文档工具。
模型卡的发展
自从 Mitchell 等人在 2018 年提出模型卡以来,模型卡已被各种组织采用和调整,包括开发和托管机器学习模型的主要技术公司和初创公司[^5]、描述新技术的研究人员[^6] 以及评估各种项目模型的政府利益相关者[^7]。模型卡也作为 AI 伦理教育工具包的一部分出现,许多组织和开发人员创建了用于自动化或半自动化模型卡创建的实现。附录 A 提供了一组由不同组织创建的各种类型 ML 模型的模型卡示例(包括大型语言模型的模型卡)、模型卡生成工具和模型卡教育工具。
Hugging Face Hub 上的模型卡
自 2018 年以来,也涌现了用于托管和共享模型卡的新平台和媒介。例如,与本项目特别相关的是,Hugging Face 在 Hugging Face Hub 上以与 ML 模型关联的存储库中的 README 文件形式托管模型卡。因此,模型卡成为 Hugging Face Hub 上模型用户的一种重要文档形式。作为我们模型卡分析的一部分,我们为 Hugging Face Hub 上的数十个 ML 模型开发并提出了模型卡,使用 Hub 的拉取请求 (PR) 和讨论功能收集关于模型卡的反馈、验证模型卡中包含的信息,并在 Hugging Face Hub 上发布模型的模型卡。在本指南编写之时,Hugging Face 在 Hugging Face Hub 上的所有模型都具有 Hub 上的关联模型卡[^8]。
上传到 Hugging Face Hub 的大量模型(在撰写本文时为 101,041 个模型)使我们能够探索 Hub 上模型卡中的内容:我们首先分析语言模型、模型卡,以识别模式(例如重复的部分和小节),目的是回答诸如以下初步问题:
1) 其中有多少模型具有模型卡?
2) 具有关联模型卡的下载量百分比是多少?
从我们对 Hub 上所有模型的分析中,我们注意到大多数下载来自排名前 200 的模型。

继续关注大型语言模型,按下载次数最多排序,并且仅限最初具有模型卡的模型,我们注意到其各自模型卡中最常出现的部分。
虽然模型卡中某些标题可能因模型而异,但我们将每个模型卡中每个部分/主题的组件分组,然后将它们映射到最常出现的节标题(主要在下载次数最多的前 200 个模型中找到,并在 Bloom 模型卡的帮助/指导下)
[^1]: 对于每种工具,描述均摘自第二列中列出的链接论文。
[^2]: 参见 https://techpolicylab.uw.edu/data-statements/ 。
[^3]: 参见 https://techpolicylab.uw.edu/data-statements/ 。
[^4]: 参见 https://techpolicylab.uw.edu/data-statements/ 。
[^5]: 参见,例如,Hugging Face Hub、Google Cloud 的模型卡 https://modelcards.withgoogle.com/about 。
[^6]: 参见附录 A。
[^7]: 参见 GSA / US Census Bureau Collaboration on Model Card Generator。
[^8]: “Hugging Face 模型”是指 Hugging Face 在 Hub 上共享的模型,而不是其他组织。正式而言,这些模型在其模型 ID 中没有“/”。
请引用为: Ozoani, Ezi 和 Gerchick, Marissa 和 Mitchell, Margaret。模型卡指南。Hugging Face,2022 年。 https://huggingface.co/docs/hub/en/model-card-guidebook
< > 在 GitHub 上更新