Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验的访问权限

开始使用

用户研究

模型卡受众和用例

在我们对模型文档工具(数据卡等)的现状进行调查时,我们注意到不同的利益相关者如何利用现有基础设施来创建一种模型卡,其中包含针对其所需领域的信息。

一个这样的例子是“业务分析师”或那些专注于 B2B 以及仅限内部受众的人员。针对此受众的静态和更手动的方法是使用 Confluence 页面。(如果 PM 编写页面,我们会将模型创建者与其理论消费分离;如果 ML 工程师编写页面,他们可能倾向于只强调某种类型的信息。[^1])或建议将 HTML(Jinja)模板、Metaflow 类和外部 API 密钥结合使用,以创建包含其领域/用例所需的模型信息视角的模型卡。

我们进行了一项用户研究,旨在验证文献支持的模型卡结构,并了解不同利益相关者视角的排名重要性部分/领域。该研究旨在验证以下组件

  • 模型卡布局

在我们检查模型卡的最新技术时,我们注意到来自 Hub 上下载次数排名前 100 的模型中经常出现的章节,这些模型都有模型卡。通过这种分析,我们对经常出现的模型卡章节和经常出现的信息进行了分类,再加上 Bloom 模型卡的结构,我们得到了标准模型卡结构的初始版本。

当我们开始构建用户研究时,我们使用了两种模型卡变体,它们使用了初始模型卡结构,作为交互式演示。这些演示的目标不仅是了解用户对模型卡视觉元素的不同视角,还有对向用户呈现的内容的了解。{预期}结果将使我们能够进一步了解是什么让模型卡更易读,同时仍提供一定程度的交互性,同时以易于理解的[可接近]方式呈现信息。

  • 利益相关者视角

由于不同技术背景的人员可能在模型上进行协作,从而在模型卡上进行协作,因此我们试图验证对不同利益相关者视角的需求。根据编写不同模型卡章节的易用性以及人们首先阅读的章节

参与者对模型卡的不同章节进行了排名,分别从阅读模型卡和编写模型卡的角度进行排名。对用户通常在模型卡中首先阅读的章节和模型卡作者发现最容易编写的章节应用了一种排序方案——1 代表最高权重,10 代表最低权重。

用户研究调查结果摘要

我们的用户研究为不同用户资料/利益相关者发现更具挑战性或更易于编写的部分提供了进一步的明确性。

以下结果表明,虽然“偏差、风险和局限性”部分在您以什么顺序编写模型卡您首先查看哪个部分中分别位列第二和第一,但它也被认为是最具挑战性/最长的编写部分。这有利于/支持对“偏差、风险和局限性”部分进行进一步评估,以帮助编写此决定性/必要的部分。

然后,这些模板用于生成前 200 个下载次数最多的 Hugging Face (HF) 模型的模型卡。

  • 我们首先开始提取 Hub 上的所有 Hugging Face 模型,尤其是关于局限性和偏差的部分(“风险”部分在很大程度上不存在)。
  • 根据与更高模型下载次数相关的最常使用输入(按模型类型分组),该工具在“偏差、风险和局限性”部分提供提示文本。如果模型类型未指定,我们还会提示默认文本。

利用这些信息,我们回到对 Hub 上所有模型卡的分析,再加上 HF 中其他研究人员和同行的建议,以及对在用户创建模型卡时可以为用户提供什么样的提示信息的额外研究。这些默认提示文本使我们能够满足目标

1)对于那些以前没有创建过模型卡或通常不为其模型创建模型卡或任何其他类型模型文档的人来说,提示文本使这些用户能够轻松创建模型卡。这反过来又增加了创建的模型卡的数量。

2)已经编写模型卡的用户,提示文本邀请他们在其模型卡中添加更多内容,进一步发展模型卡的内容/标准。

用户研究详情

我们从与机器学习和模型文档相关的各种背景中挑选了一些人。下面,我们详细介绍了他们的统计数据、他们被问到的问题以及他们回答的相应见解。附录 A 中提供了关于回复的完整详细信息。

受访者统计数据

  • 技术和监管事务顾问
  • ML 工程师 (x2)
  • 开发者倡导者
  • 执行助理
  • 盈利化负责人
  • 政策经理/AI 研究员
  • 研究实习生

与机器学习模型交互时,您希望或需要了解模型的关键信息是什么?

见解

  • 受访者优先考虑有关模型任务/领域的信息 (x3)、训练数据/训练过程 (x2)、如何使用模型(含代码)(x2)、偏差和限制以及模型许可证。

关于特定模型卡格式的反馈

格式 1:

Hub 上的当前 distilbert/distilgpt2 模型卡

见解

  • 受访者发现此模型卡格式简洁、完整且易读。
  • 关于可折叠部分没有达成一致(有些人喜欢并希望更多,有些人不喜欢)。
  • 一些受访者表示“风险和限制”应该与“超出范围的用途”放在一起。

格式 2:

Nazneen Rajani 的 交互式模型卡空间

见解

  • 虽然一些受访者非常喜欢这种格式,但大多数人发现它过于复杂或信息过载。一些人建议将其作为基础模型卡的补充工具,供更高级的用户使用。

格式 3:

Ezi Ozoani 的 半交互式模型卡空间

见解

  • 一些受访者发现这种格式过于复杂,但总体而言,他们发现它比格式 2 weniger 复杂。
  • 一些受访者不同意当前的布局,并就每个栏目中应优先考虑哪些部分给出了具体反馈。

部分排名

根据平均排名排序。箭头相对于调查问题中相关部分的顺序显示。

见解

  • 在撰写模型卡时,受访者普遍表示他们会按照调查问题中列出的部分顺序撰写模型卡。
  • 在对模型卡部分进行易写/快速撰写排名时,人们普遍认为关于用途和限制以及风险的部分最难。
  • 在阅读模型卡时,受访者表示他们查看模型卡部分的顺序与调查问题中列出的部分顺序接近,但并不完全一致。

user studies results 1

user studies results 2

致谢

我们要感谢并感谢 Bibi Ofuya 在用户研究期间为她的问题创建以及她在以用户为中心排序和演示方面的指导。

[^1]: 请参阅 https://towardsdatascience.com/dag-card-is-the-new-model-card-70754847a111


请引用为:Ozoani, Ezi 和 Gerchick, Marissa 和 Mitchell, Margaret。模型卡指南。Hugging Face,2022 年。 https://huggingface.co/docs/hub/en/model-card-guidebook

< > 在 GitHub 上更新