Hub 文档
用户研究
并获得增强的文档体验
开始使用
用户研究
模型卡片的受众和用例
在我们调查模型文档工具(数据卡片等)的现状时,我们注意到不同的利益相关者如何利用现有基础设施创建一种模型卡片,其中信息侧重于他们需要的领域。
一个这样的例子是“业务分析师”或那些专注于 B2B 以及仅限内部受众的人。这种受众的静态和更手动的方法是使用 Confluence 页面。(如果项目经理编写页面,我们会将模型创建者与其理论消费脱钩;如果机器学习工程师编写页面,他们可能倾向于仅强调某种类型的信息。 [^1])或 HTML (Jinja) 模板、Metaflow 类和外部 API 密钥的拟议组合,以便创建模型卡片,其中包含其领域/用例所需的模型信息视角。
我们进行了一项用户研究,旨在验证文献中关于模型卡片的结构,并了解不同利益相关者视角中排名重要的部分/区域。该研究旨在验证以下组件
- 模型卡片布局
在我们检查模型卡片的最新技术水平时,我们注意到在 Hub 上下载次数最多的约 100 个模型中,模型卡片中反复出现的部分。通过此分析,我们编目了最常出现的模型卡片部分和重复信息,这与 Bloom 模型卡片的结构相结合,使我们得出了标准模型卡片结构的初始版本。
当我们开始构建用户研究时,使用了模型卡片的两种变体(使用了初始模型卡片结构)作为交互式演示。这些演示的目的是不仅要了解不同用户对模型卡片视觉元素的看法,还要了解呈现给用户的内容。{期望的}结果将使我们能够进一步了解是什么使模型卡片既易于阅读,又在模型卡片中提供一定程度的交互性,同时以易于理解[平易近人]的方式呈现信息。
- 利益相关者视角
由于不同技术背景的人员可能会协作开发模型以及随后的模型卡片,因此我们试图验证不同利益相关者视角的需求。基于编写不同模型卡片部分的易用性以及首先阅读的部分
参与者从阅读模型卡片的人员和模型卡片作者的角度对模型卡片的不同部分进行了排名。排序方案(1 为最高权重,10 为最低权重)应用于用户通常在模型卡片中首先阅读的不同部分以及模型卡片作者会发现最容易编写的模型卡片部分。
用户研究调查回复摘要
我们的用户研究进一步明确了不同用户配置文件/利益相关者会发现哪些部分更具挑战性或更易于编写。
下图显示,虽然对于模型卡片编写者和模型卡片阅读者来说,编写模型卡片的顺序以及首先查看的部分,“偏见、风险和局限性”部分都排名第二,但也注意到它是最具挑战性/最长的编写部分。这赞成/认可了需要进一步评估“偏见、风险和局限性”部分,以便帮助编写这个决定性/必要的章节。
然后,这些模板用于为下载次数最多的前 200 个 Hugging Face (HF) 模型生成模型卡片。
- 我们首先从 Hub 上拉取所有 Hugging Face 模型,特别是关于局限性和偏见的子部分(“风险”子部分在很大程度上不存在)。
- 基于模型下载次数较多且最连续使用的输入,按模型类型分组,该工具在“偏见、风险和局限性”部分中提供了提示文本。如果未指定模型类型,我们还会提示默认文本。
使用此信息,我们返回到对 Hub 上所有模型卡片的分析,结合 HF 的其他研究人员和同行的建议,以及关于我们可以向创建模型卡片的用户提供的提示信息类型的其他研究。这些默认提示文本使我们能够满足以下目标
1) 对于那些以前没有创建过模型卡片或通常不为其模型创建模型卡片或任何其他类型的模型文档的用户,提示文本使这些用户可以轻松创建模型卡片。这反过来又增加了创建的模型卡片的数量。
2) 对于已经编写模型卡片的用户,提示文本邀请他们在其模型卡片中添加更多内容,从而进一步开发模型卡片的内容/标准。
用户研究详情
我们选择了来自与机器学习和模型文档相关的各种不同背景的人员。下面,我们详细介绍了他们的人口统计信息、他们被问到的问题以及他们回复的相应见解。有关回复的完整详细信息,请参见附录 A。
受访者人口统计信息
- 技术与监管事务顾问
- 机器学习工程师 (x2)
- 开发者布道师
- 行政助理
- 盈利主管
- 政策经理/人工智能研究员
- 研究实习生
与机器学习模型交互时,您希望或需要了解关于模型的哪些关键信息?
见解
- 受访者优先考虑关于模型任务/领域 (x3)、训练数据/训练过程 (x2)、如何使用模型(带代码)(x2)、偏见和局限性以及模型许可证的信息
关于特定模型卡片格式的反馈
格式 1:
Hub 上当前的 distilbert/distilgpt2 模型卡片
见解
- 受访者认为此模型卡片格式简洁、完整且可读。
- 对于可折叠部分没有达成共识(有些人喜欢并希望更多,有些人不喜欢)。
- 一些受访者表示,“风险和局限性”应与“超出范围的用途”一起
格式 2:
Nazneen Rajani 的 交互式模型卡片 Space
见解
- 虽然一些受访者非常喜欢这种格式,但大多数人认为它信息量过大或信息过载。一些人建议这可以作为一个不错的工具,分层添加到基本模型卡片中,以供更高级的受众使用。
格式 3:
Ezi Ozoani 的 半交互式模型卡片 Space
见解
- 一些受访者认为这种格式信息量过大,但他们普遍认为它比格式 2 的信息量要小。
- 一些受访者不同意当前的布局,并就每一列中应优先考虑哪些部分提出了具体反馈。
部分排名
根据平均排名排序。箭头显示相对于调查问卷中相关部分的顺序。
见解
- 在编写模型卡片时,受访者普遍表示,他们会按照调查问卷中列出的部分顺序编写模型卡片。
- 当按编写的容易/快速程度对模型卡片的部分进行排名时,共识是关于用途以及局限性和风险的部分最困难。
- 当阅读模型卡片时,受访者表示,他们查看卡片部分的顺序与调查问卷中列出的部分顺序接近,但不完全一致。
致谢
我们要感谢 Bibi Ofuya,感谢她提出的问题以及她在用户研究期间对以用户为中心的排序和演示的指导。
[^1]: 请参阅 https://towardsdatascience.com/dag-card-is-the-new-model-card-70754847a111
请引用为: Ozoani, Ezi and Gerchick, Marissa and Mitchell, Margaret. 模型卡片指南。Hugging Face, 2022. https://huggingface.co/docs/hub/en/model-card-guidebook
< > 在 GitHub 上更新