Hub 文档
ML 文档工具概览
并获得增强的文档体验
开始使用
ML 文档工具概览
2018 年模型卡片框架的开发灵感来源于自然语言处理数据声明 (Bender & Friedman, 2018) 和数据集数据表 (Gebru et al., 2018) 等重要的文档框架工作。自模型卡片提出以来,又提出了许多其他工具,用于记录和评估机器学习开发周期的各个方面。这些工具,包括模型卡片以及模型卡片之前提出的相关文档工作,可以根据其关注点(例如,工具侧重于 ML 系统生命周期的哪个部分?)和目标受众(例如,该工具是为谁设计的?)进行情境化。在下面的图 1-2 中,我们总结了沿这些维度的几个主要文档工具,提供了每个工具的上下文描述,并提供了示例链接。我们大致将文档工具分为以下几组:
- 数据中心型,包括专注于机器学习系统生命周期中使用的数据集的文档工具
- 模型和方法中心型,包括专注于机器学习模型和方法的文档工具;以及
- 系统中心型,包括专注于 ML 系统的文档工具,包括模型、方法、数据集、API 以及作为 ML 系统一部分相互交互的非 AI/ML 组件
这些分组并非相互排斥;它们确实包含 ML 系统生命周期的重叠方面。例如,系统卡片侧重于记录可能包含多个模型和数据集的 ML 系统,因此可能包含与数据中心型或模型中心型文档工具重叠的内容。所描述的工具是 ML 系统生命周期文档工具的非详尽列表。通常,我们包含的工具
- 侧重于 ML 系统生命周期的某些(或多个)方面的文档
- 包含用于重复使用、采用和改编的模板的发布
ML 文档工具概述
图 1
ML 系统生命周期阶段 | 工具 | 简要描述 | 示例 |
---|---|---|---|
数据 | 数据表 (Gebru 等人,2018) | “我们建议每个数据集都附带一份数据表,记录其动机、创建、组成、预期用途、分发、维护以及其他信息。” | 例如,请参阅 Ivy Lee 的仓库 中的示例。 |
数据 | 数据声明 (Bender & Friedman, 2018)(Bender 等人,2021) | “数据声明是对数据集的描述,提供上下文,以便开发人员和用户更好地理解实验结果的泛化程度、软件的适当部署方式以及软件构建系统可能反映的偏见。” | 请参阅 自然语言处理数据声明研讨会 |
数据 | 数据集营养标签 (Holland 等人,2018) | “数据集营养标签……是一种诊断框架,通过在 AI 模型开发之前提供数据集“成分”的精炼而全面的概述,降低标准化数据分析的门槛。” | 请参阅 数据营养标签 |
数据 | NLP 数据卡 (McMillan-Major 等人,2021) | “我们介绍了在自然语言处理 (NLP) 中创建文档模板和指南的两个案例研究:Hugging Face (HF) 数据集中心[^1] 和生成及其评估和指标 (GEM) 基准。在这两种情况下,我们都使用术语数据卡来指代数据集的文档。” | 请参阅 (McMillan-Major 等人,2021) |
数据 | 数据集开发生命周期文档框架 (Hutchinson 等人,2021) | “我们引入了一个严格的数据集开发透明度框架,支持决策制定和问责制。该框架利用数据集开发的循环、基础设施和工程特性,借鉴了软件开发生命周期的最佳实践。” | 请参阅 (Hutchinson 等人,2021),附录 A 中的模板 |
数据 | 数据卡 (Pushkarna 等人,2021) | “数据卡是关于 ML 数据集各个方面的基本事实的结构化摘要,这些事实是利益相关者在数据集生命周期中进行负责任的 AI 开发所必需的。这些摘要提供了塑造数据并因此塑造模型的流程和原理的解释。” | 请参阅 数据卡手册 github |
数据 | CrowdWorkSheets (Díaz 等人,2022) | “我们引入了一个新颖的框架 CrowdWorkSheets,供数据集开发人员用于促进数据标注管道各个阶段关键决策点的透明文档:任务制定、标注者选择、平台和基础设施选择、数据集分析和评估以及数据集发布和维护。” | 请参阅 (Díaz 等人,2022) |
模型和方法 | 模型卡片 Mitchell 等人 (2018) | “模型卡片是附随训练有素的机器学习模型的简短文档,提供在各种条件下(与预期应用领域相关)的基准评估……模型卡片还披露了模型的预期使用上下文、性能评估程序的详细信息以及其他相关信息。” | 请参阅 https://huggingface.co/models、模型卡片指南 和 模型卡片示例 |
模型和方法 | 价值卡片 Shen 等人 (2021) | “我们提出了价值卡片,一个以审议为导向的工具包,旨在让计算机科学学生和从业人员了解基于机器学习的决策系统对社会的影响……价值卡片鼓励对不同的 ML 性能指标及其潜在权衡进行调查和辩论。” | 请参阅 Shen 等人 (2021),第 3.3 节 |
模型和方法 | 方法卡片 Adkins 等人 (2022) | “我们建议使用方法卡片来指导 ML 工程师完成模型开发过程……这些信息包括规范性和描述性元素,主要侧重于确保 ML 工程师能够正确使用这些方法。” | 请参阅 Adkins 等人 (2022),附录 A |
模型和方法 | ML 模型消费者标签 Seifert 等人 (2019) | “我们建议为训练和发布的 ML 模型发布消费者标签。这些标签主要针对机器学习的非专业人士,例如 ML 系统的操作员、决策的执行者和决策主体本身” | 请参阅 Seifert 等人 (2019) |
系统 | 事实表 Arnold 等人 (2019) | “事实表将包含 AI 服务的所所有相关属性部分,例如预期用途、性能、安全性和安全性。性能将包括适当的准确性或风险度量以及时间信息。” | 请参阅 IBM 的 AI Factsheets 360 和 Hind 等人 (2020) |
系统 | 系统卡片 Procope 等人 (2022) | “系统卡片旨在通过向利益相关者概述 ML 系统的不同组件、这些组件如何交互以及系统如何使用不同的数据和受保护信息来增加 ML 系统的透明度。” | 请参阅 Meta 的 Instagram 动态排名系统卡片 |
系统 | RL 奖励报告 Gilbert 等人 (2022) | “我们勾勒了一个用于记录已部署学习系统的框架,我们称之为奖励报告……我们将奖励报告概述为跟踪设计选择和特定自动化系统正在优化的假设的更新的活文档。它们旨在跟踪系统部署产生的动态现象,而不仅仅是模型或数据的静态属性。” | 请参阅 https://rewardreports.github.io |
系统 | 鲁棒性实验室 Goel 等人 (2021) | “我们识别了评估 NLP 系统面临的挑战,并提出了鲁棒性实验室 (RG) 形式的解决方案,这是一个简单且可扩展的评估工具包,它统一了 4 种标准评估范式:子群体、转换、评估集和对抗性攻击。” | 请参阅 https://github.com/robustness-gym/robustness-gym |
系统 | ABOUT ML Raji 和 Yang (2019) | “ABOUT ML(机器学习生命周期理解和透明度的标注和基准测试)是由 PAI 领导的一项为期多年、多利益相关者倡议。该倡议旨在汇集广泛的观点,以开发、测试和大规模实施机器学习系统文档实践。” | 请参阅 ABOUT ML 资源库 |
数据中心型文档工具
一些提出的文档工具侧重于 ML 系统生命周期中使用的数据集,包括用于训练、开发、验证、微调和评估机器学习模型作为持续周期的一部分。这些工具通常侧重于数据生命周期的许多方面(可能是针对特定数据集、数据集组或更广泛地),包括数据的组装、收集、标注方式以及如何使用。
- 扩展电子行业数据表的概念,Gebru 等人 (2018) 提出了数据集数据表,用于记录与数据集创建、潜在用途和相关问题相关的详细信息。
- Bender 和 Friedman (2018) 提出了自然语言处理的数据声明。Bender、Friedman 和 McMillan-Major (2021) 更新了原始数据声明框架并提供了资源,包括编写数据声明和在模式的第一个版本和新版本之间进行转换的指南[^2]。
- Holland 等人 (2018) 提出了数据营养标签,类似于食品的营养成分和隐私披露的营养标签,作为分析和决策数据集的工具。数据营养标签团队于 2020 年发布了标签的更新设计和界面 (Chmielinski 等人,2020))。
- McMillan-Major 等人 (2021) 描述了 Hugging Face Hub[^3] 上的数据卡和作为自然语言处理生成及其评估指标 (GEM) 环境[^4] 的基准数据集一部分的数据卡的形式的 NLP 数据卡 的开发过程和生成的模板。
- Hutchinson 等人 (2021) 描述了对全面数据集文档的需求,并借鉴软件开发实践,提供了用于记录数据集开发生命周期几个方面的模板(在表 1 和表 2 中,我们将其框架称为数据集开发生命周期文档框架)。
- Pushkarna 等人 (2021) 提出了数据卡作为数据卡手册的一部分,这是一个以人为中心的文档工具,侧重于行业和研究中使用的数据集。
模型和方法中心型文档工具
另一组文档工具可以被认为是侧重于机器学习模型和机器学习方法的。这些包括:
Mitchell 等人 (2018) 提出了模型卡片用于模型报告,以随附训练好的 ML 模型并记录与评估、使用和其他问题相关的问题。
Shen 等人 (2021) 提出了价值卡片,用于教导学生和从业人员与 ML 模型相关的价值观。
Seifert 等人 (2019) 提出了 ML 模型消费者标签,以帮助非专业人士使用或受模型影响时理解与模型相关的关键问题。
Adkins 等人 (2022) 分析了描述性文档工具的各个方面——他们认为其中包括模型卡片和数据表——并主张增加针对 ML 工程师的规范性工具。他们提出了侧重于 ML 方法的方法卡片,主要针对模型开发人员和评审员等技术利益相关者进行设计。
他们部分地阐述了模型卡片和方法卡片之间的关系:“我们提出的 [方法卡片模板中的] 部分和提示……侧重于足以生成具有明确输入、输出和任务的适当 ML 模型的方法。例如,目标检测方法(如单次检测器)和语言建模方法(如生成式预训练 Transformer (GPT))。可以为使用这些方法创建的模型创建模型卡片。”
他们还表示:“虽然模型卡片和事实表主要侧重于记录现有模型,但方法卡片更侧重于在创建和训练这些模型时需要考虑的基本方法和算法选择。粗略地类比,如果模型卡片和事实表提供熟食的营养信息,那么方法卡片则提供食谱。”
系统中心型文档工具
系统中心型文档工具不侧重于特定模型、数据集或方法,而是关注模型如何相互作用,以及与数据集、方法和其他 ML 组件如何形成 ML 系统。
- Procope 等人 (2022) 提出了系统卡片,用于记录和解释 AI 系统——可能包括多个 ML 模型、AI 工具和非 AI 技术——这些系统协同工作以完成任务。
- Arnold 等人 (2019) 将消费品合格声明的概念扩展到 AI 服务,提出了事实表,用于记录“AI 服务”的各个方面,这些服务通常通过 API 访问,可能由多个不同的 ML 模型组成。Hind 等人 (2020) 分享了构建事实表的经验。
- Gilbert 等人 (2022) 提出了强化学习系统奖励报告,认识到 ML 系统的动态特性以及文档工作需要考虑部署后性能,尤其是对于强化学习系统。
- Goel 等人 (2021) 开发了鲁棒性实验室,这是一个评估工具包,用于测试现实世界系统中深度神经网络的几个方面,从而实现跨评估范式的比较。
- 通过 ABOUT ML 项目 (Raji 和 Yang,2019),人工智能伙伴关系正在协调机器学习社区各利益相关方群体的工作,以开发全面、可扩展的 ML 系统文档工具。
模型卡片的演变
自 Mitchell 等人于 2018 年提出模型卡片以来,模型卡片已被各种组织采用和改编,其中包括开发和托管机器学习模型的主要技术公司和初创公司[^5]、描述新技术的研究人员[^6] 以及评估各种项目模型的政府利益相关者[^7]。模型卡片也作为 AI 伦理教育工具包的一部分出现,许多组织和开发人员已经创建了用于自动化或半自动化模型卡片创建的实现。附录 A 提供了一组针对不同类型 ML 模型(包括大型语言模型的模型卡片)、模型卡片生成工具和模型卡片教育工具创建的模型卡片示例。
Hugging Face Hub 上的模型卡片
自 2018 年以来,也出现了托管和共享模型卡片的新平台和媒介。例如,与本项目特别相关的是,Hugging Face 将模型卡片作为 README 文件托管在与 ML 模型相关的仓库中。因此,模型卡片成为 Hugging Face Hub 模型用户的一种重要文档形式。作为模型卡片分析的一部分,我们为 Hugging Face Hub 上的数十个 ML 模型开发并提出了模型卡片,并利用 Hub 的拉取请求 (PR) 和讨论功能收集关于模型卡片的反馈、验证模型卡片中包含的信息,并在 Hugging Face Hub 上发布模型卡片。在编写本指南时,Hugging Face Hub 上的所有 Hugging Face 模型都附有相关的模型卡片[^8]。
Hugging Face Hub 上上传的模型数量众多(截至本文撰写时为 101,041 个模型),这使我们能够探索 Hub 上模型卡片中的内容:我们首先分析语言模型、模型卡片,以识别模式(例如重复的部分和子部分),旨在回答最初的问题,例如
1) 这些模型中有多少个具有模型卡片?
2) 多少百分比的下载量有相关的模型卡片?
通过对 Hub 上所有模型的分析,我们注意到大多数下载来自前 200 个模型。

我们继续关注大型语言模型,按下载量从高到低排序,并且只从一开始就有模型卡片的模型开始,我们注意到它们各自模型卡片中最常出现的部分。
虽然模型卡片中的某些标题可能因模型而异,但我们将每个模型卡片中组件/每个部分的主题分组,然后将它们映射到最常出现的标题(主要出现在下载量前 200 的模型中,并在 Bloom 模型卡片的帮助/指导下)
[^1]: 对于每个工具,描述均摘录自第二列中列出的链接论文。
[^2]: 参见 https://techpolicylab.uw.edu/data-statements/。
[^3]: 参见 https://techpolicylab.uw.edu/data-statements/。
[^4]: 参见 https://techpolicylab.uw.edu/data-statements/。
[^5]: 例如,参见 Hugging Face Hub,Google Cloud 的模型卡片 https://modelcards.withgoogle.com/about。
[^6]: 参见附录 A。
[^7]: 参见 GSA / 美国人口普查局模型卡片生成器协作。
[^8]: “Hugging Face 模型”是指 Hugging Face(而非其他组织)在 Hub 上共享的模型。形式上,这些模型的模型 ID 中不包含“/”。
请引用:Ozoani, Ezi and Gerchick, Marissa and Mitchell, Margaret. Model Card Guidebook. Hugging Face, 2022. https://huggingface.co/docs/hub/en/model-card-guidebook
< > 在 GitHub 上更新