模型卡片
引言
模型卡片是理解、共享和改进机器学习模型的重要文档框架。如果做得好,模型卡片可以作为一种边界对象,一个单一的工件,可供具有不同背景和目标的人理解模型——包括开发者、学生、政策制定者、伦理学家以及受机器学习模型影响的人。
今天,我们发布了一个模型卡片创建工具和一本模型卡片指南,详细介绍了如何填写模型卡片、用户研究以及机器学习文档的最新进展。这项工作以许多其他个人和组织的工作为基础,侧重于不同背景和角色人群的包容性。我们希望它能成为改进机器学习文档的垫脚石。
总而言之,我们今天宣布发布:
一个模型卡片创建工具,旨在简化卡片创建,无需编程,并帮助团队分担不同部分的工作。
一个更新的模型卡片模板,在
huggingface_hub
库中发布,汇集了学术界和整个行业在模型卡片方面的工作。一个带注释的模型卡片模板,详细说明了如何填写卡片。
一份关于 Hugging Face 模型卡片使用情况的用户研究。
一份关于模型文档最新进展的全景分析和文献综述。
迄今为止的模型卡片
自 Mitchell 等人(2018)提出模型卡片以来,受自然语言处理数据声明(Bender & Friedman,2018)和数据集数据表(Gebru 等人,2018)等主要文档框架工作的启发,机器学习文档的格局不断扩大和演变。大量用于数据、模型和机器学习系统的文档工具和模板被提出和开发——这反映了数百名研究人员、受影响的社区成员、倡导者和其他利益相关者的杰出工作。关于机器学习文档与负责任人工智能变革理论之间关系的重要讨论也塑造了机器学习文档生态系统的这些发展。
迄今为止,机器学习文档方面的工作已为不同受众提供了支持。我们今天分享的工作将这些思想中的许多整合在一起。
我们的工作
我们的工作展示了模型卡片的当前状况以及未来的发展方向。我们对不断发展的机器学习文档工具进行了广泛分析,并在 Hugging Face 内部进行了用户访谈,以补充我们对模型卡片不同意见的理解。我们还为 Hugging Face Hub 上的机器学习模型创建或更新了几十个模型卡片,并根据所有这些经验,提出了一个新的模型卡片模板。
模型卡片结构的标准化
通过我们的背景研究和用户研究(在指南中有进一步讨论),我们旨在建立公众对“模型卡片”理解的新标准。
根据这些发现,我们创建了一个新的模型卡片模板,它不仅标准化了 Hugging Face 模型卡片的结构和内容,还提供了默认的提示文本。该文本旨在帮助编写模型卡片部分,特别关注“偏差、风险和限制”部分。
可访问性和包容性
为了降低创建模型卡片的门槛,我们设计了模型卡片编写工具,它是一个带有图形用户界面(GUI)的工具,可让具有不同技能和角色的个人和团队轻松协作创建模型卡片,而无需编码或使用 Markdown。
该编写工具鼓励尚未编写模型卡片的人更容易地创建它们。对于以前编写过模型卡片的人来说,这种方法邀请他们在提示信息的基础上进行补充——同时强调模型文档的伦理组成部分。
随着机器学习与不同领域的联系越来越紧密,以可访问性、伦理和包容性为中心的协作式开源机器学习流程是机器学习生命周期中的关键组成部分,也是机器学习文档的基石。
今天的发布是机器学习文档工作大生态系统中的一部分:数据和模型文档已被许多科技公司(包括 Hugging Face 🤗)采用。我们优先考虑数据集卡片和模型卡片的“存储库卡片”,侧重于多学科性。沿着这条工作线,模型卡片创建用户界面工具侧重于包容性,提供格式和提示指导,以帮助具有不同背景的人创建卡片。
行动号召
展望未来
这项工作是模型卡片当前状态的“快照”,它基于对机器学习文档工件实例化方式的全景分析。模型手册和这些发现代表了关于模型卡片当前状态和更具抱负的愿景的多种视角之一。
- Hugging Face 生态系统将继续推进简化模型卡片创建的方法,包括通过代码和用户界面,包括将更多功能直接构建到存储库和产品中。
- 随着我们进一步开发诸如Hub 上的评估等模型工具,我们将把它们的使用整合到模型卡片开发工作流程中。例如,随着自动评估模型在不同分解因素上的性能变得更容易,这些结果将可以导入到模型卡片中。
- 仍需进行进一步研究以推进研究模型与模型卡片的配对,例如构建研究论文→模型文档管道,使其可以轻松地从论文到模型卡片创建。这将允许更大的跨领域覆盖和模型文档的进一步标准化。
我们将继续深入了解模型卡片是如何创建和使用的,以及卡片对模型使用的影响。根据这些学习,我们将进一步更新模型卡片模板、说明和 Hub 集成。
当我们努力将更多声音和利益相关者对模型卡片的使用案例纳入其中时,请收藏我们的模型卡片编写工具并尝试一下!
我们很高兴能了解您对模型卡片、我们的模型卡片编写 GUI 以及 AI 文档如何赋能您领域的想法。🤗
致谢
此次发布离不开 Omar Sanseviero、Lucain Pouget、Julien Chaumond、Nazneen Rajani 和 Nate Raw 的巨大贡献。