Hub 文档
用户研究
并获得增强的文档体验
开始使用
用户研究
模型卡受众和用例
在对模型文档工具(数据卡等)领域进行调查时,我们注意到不同的利益相关者如何利用现有基础设施创建一种模型卡,其中包含针对其所需领域的信息。
一个例子是“业务分析师”或专注于 B2B 以及仅限内部受众的人。对于此类受众,静态且更手动的方法是使用 Confluence 页面。(如果产品经理编写页面,我们就会将模型创建者与理论上的消费隔离开来;如果机器学习工程师编写页面,他们可能只倾向于强调某种类型的信息。 [^1]) 或者建议结合 HTML (Jinja) 模板、Metaflow 类和外部 API 密钥,以创建包含其领域/用例所需模型信息视角的模型卡。
我们进行了一项用户研究,旨在验证基于文献的模型卡结构,并了解不同利益相关者视角下各部分/区域的重要性排名。该研究旨在验证以下组成部分:
- 模型卡布局
在我们对模型卡现状的审查中,我们注意到在 Hub 上下载量前 100 名的模型中,有模型卡的模型卡中,存在重复出现的章节。通过此分析,我们对最常出现的模型卡章节和重复信息进行了分类,这与 Bloom 模型卡的结构相结合,形成了标准模型卡的初始版本。
当我们开始构建用户研究时,我们使用了两种模型卡变体作为交互式演示,这些变体均使用了初始模型卡结构。这些演示的目的是不仅要了解用户对模型卡视觉元素的看法,还要了解呈现给用户的内容。其{预期}结果将使我们能够进一步了解如何使模型卡更易于阅读,同时仍在模型卡中提供一定程度的交互性,并以易于理解[平易近人]的方式呈现信息。
- 利益相关者视角
由于不同技术背景的人员可能会在模型以及随后的模型卡上进行协作,我们试图验证不同利益相关者视角的必要性。基于编写不同模型卡部分的易用性以及首先会阅读的部分
参与者从模型卡阅读者的角度,以及模型卡作者的角度,对模型卡的不同部分进行了排名。他们对用户通常会首先阅读的模型卡部分和模型卡作者会认为最容易编写的模型卡部分应用了一种排序方案——1 为最高权重,10 为最低权重。
用户研究问卷回复总结
我们的用户研究进一步明确了不同用户档案/利益相关者会觉得哪些部分更难或更容易编写。
下图显示,尽管“偏见、风险和局限性”部分在模型卡作者和模型卡读者分别的“您以何种顺序编写模型卡”和“您首先查看哪个部分”中均排名第二,但它也被认为是编写起来最具挑战性/最长的部分。这支持/证实了需要进一步评估“偏见、风险和局限性”部分,以协助编写这个决定性/必要的部分。
这些模板随后被用于为下载量前 200 名的 Hugging Face (HF) 模型生成模型卡。
- 我们首先拉取了 Hub 上所有 Hugging Face 模型,特别是“限制”和“偏见”子章节(“风险”子章节大部分不存在)。
- 根据模型类型分组,使用最多且模型下载量较高的输入,该工具在“偏见、风险和局限性”部分提供了提示文本。如果未指定模型类型,我们也会提示默认文本。
利用这些信息,我们回到了对 Hub 上所有模型卡的分析,并结合了其他研究人员和 HF 同行的建议,以及对我们可以向用户提供哪种提示信息的研究,以帮助他们创建模型卡。这些默认的提示文本使我们能够满足以下目标:
1) 对于以前没有创建过模型卡或通常不为其模型制作模型卡或任何其他类型模型文档的用户,提示文本使这些用户能够轻松创建模型卡。这反过来增加了创建的模型卡数量。
2) 对于已经编写模型卡的用户,提示文本鼓励他们为模型卡添加更多内容,进一步发展模型卡的内容/标准。
用户研究详情
我们从与机器学习和模型文档相关的各种背景中选择了人员。下面,我们详细介绍了他们的人口统计信息、他们被问到的问题以及他们回答中相应的见解。有关回复的完整详细信息可在附录 A 中找到。
受访者人口统计
- 技术与监管事务顾问
- 机器学习工程师 (x2)
- 开发者倡导者
- 执行助理
- 变现主管
- 政策经理/AI 研究员
- 研究实习生
当您与机器学习模型交互时,您想要或需要了解的关于模型的关键信息是什么?
洞察
- 受访者优先考虑模型任务/领域 (x3)、训练数据/训练过程 (x2)、如何使用模型(附带代码)(x2)、偏差和局限性以及模型许可证。
关于特定模型卡格式的反馈
格式 1:
Hub 上当前的 distilbert/distilgpt2 模型卡
见解
- 受访者认为这种模型卡格式简洁、完整、易读。
- 对于可折叠部分没有达成共识(有些人喜欢并希望更多,有些人不喜欢)。
- 一些受访者表示“风险和局限性”应与“超出范围的使用”放在一起。
格式 2:
Nazneen Rajani 的 交互式模型卡空间
见解
- 尽管少数受访者非常喜欢这种格式,但大多数人认为它过于复杂或信息过载。一些人建议这可以作为一种很好的工具,在基础模型卡上分层,以供更高级的受众使用。
格式 3:
Ezi Ozoani 的 半交互式模型卡空间
见解
- 几位受访者认为这种格式令人难以承受,但他们普遍认为它比格式 2 令人承受的程度要低。
- 几位受访者不同意当前的布局,并就每列中哪些部分应优先显示提出了具体反馈。
章节排名
按平均排名排序。箭头相对于调查问题中相关部分的顺序显示。
见解
- 在编写模型卡时,受访者普遍表示,他们会按照调查问题中列出的章节顺序来编写模型卡。
- 在按照编写的难易程度/速度对模型卡的各个部分进行排名时,普遍的共识是,关于使用、局限性和风险的部分最难编写。
- 在阅读模型卡时,受访者表示他们查看卡片部分的顺序与调查问题中列出的部分顺序接近,但并非完全一致。
致谢
我们要感谢并致谢 Bibi Ofuya 在用户研究中对问题创建以及用户导向排序和展示方面的指导。
[^1]: 参见 https://towardsdatascience.com/dag-card-is-the-new-model-card-70754847a111
请引用: Ozoani, Ezi 和 Gerchick, Marissa 和 Mitchell, Margaret. 模型卡指南. Hugging Face, 2022. https://huggingface.co/docs/hub/en/model-card-guidebook
< > 在 GitHub 上更新