Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

附录

附录 A:用户研究

关键问题的完整文本回答

您如何定义模型卡?

洞察:受访者对模型卡的看法大体相似:侧重于训练、用例以及偏差/限制等问题的文档。

  • 模型卡是模型的描述,包括它们的训练方式、用例以及潜在的偏差和限制。
  • 描述模型基本特征的文档,以便读者/用户了解其面对的人工智能产物、背景/训练方式、如何使用以及其技术/伦理限制。
  • 它们是模型的活生生的产物,用于记录模型。模型卡包含从特定模型用途的高级描述到限制、偏见、指标等大量信息。它们主要用于理解模型的功能。
  • 模型卡之于模型,如同 GitHub README 之于 GitHub 项目。它告诉人们关于模型所需了解的一切信息。如果你不写,没有人会使用你的模型。
  • 据我所知,模型卡使用某些基准(地理、文化、性别等)来定义模型可用性和局限性。它本质上是模型的“营养成分标签”,可以显示模型的创建方式,并教育他人了解其可重用性。
  • 模型卡是关于模型的元数据和文档,是我正确使用模型所需了解的一切:关于模型的信息、引入它的论文、它是在什么数据集上训练或微调的、它属于谁、这个模型是否存在已知的风险和限制,以及任何有用的技术信息。
  • 在我看来,模型卡是对模型的简要介绍,包括
    • 模型架构特殊性的简要总结
    • 描述其训练数据
    • 在参考数据集上的性能(如果可能,包括准确性和速度指标)
    • 限制
    • 如何在 Transformer 库中使用它
    • 来源(原始文章、Github 仓库等)
  • 易于查阅的文档,任何背景的人都可以阅读并了解关键的模型组件和社会影响

您喜欢模型卡的哪些方面?

  • 它们对于向人们介绍新模型很有趣
  • 作为非技术人员,了解模型、理解其基本原理的可能性,是作者以透明且可解释(即值得信赖)的方式展示其创新的机会。
  • 我喜欢带有可视化和小部件的交互式模型卡,这让我可以在不运行任何代码的情况下尝试模型。
  • 我喜欢优秀的模型卡,因为你可以找到关于该特定模型所需的所有信息。
  • 模型卡对于人工智能伦理领域具有革命性意义。它是减轻/教育机器学习偏见的第一个切实步骤之一。它们促进了更大的意识和问责制!
  • 结构化,详尽,信息越多越好。
  • 它有助于了解模型擅长(或不擅长)什么。
  • 简洁性和可访问性

您不喜欢模型卡的哪些方面?

  • 可能过于技术化和/或内容密集
  • 它们包含针对不同受众(研究人员、工程师、非工程师)的大量信息,因此很难根据预期的用例来探索模型卡。 * [注意:此评论可通过针对不同受众的切换视图来解决]
  • 优秀的模型卡需要耗费大量时间来创建。它们难以测试以确保信息是最新的。很多时候,模型卡的格式完全不同——所以你必须自己摸索那个特定的人是如何构建他们的模型卡的。 * [注意:此评论有助于说明标准化格式和自动化工具在简化模型卡创建方面的价值]
  • 如果没有社区的帮助来提供补充评估,模型卡可能会受到开发人员可能没有意识到的固有偏见的影响。它们尚处于早期阶段,但如果没有更彻底的评估,模型卡的信息可能过于有限。
  • 空的模型卡。没有许可证信息——客户需要这些信息,但通常没有。
  • 它们通常要么过于简洁,要么过于冗长。
  • 写它们简直要了我的老命,祝你好运

其他关键新见解

  • 模型卡最好由不同角色的人填写:技术规范通常只能由开发人员填写;整个伦理考量通常最好由从事伦理问题的人员提供信息。
  • 模型用户非常关心许可证——特别是模型是否可以合法地用于特定任务。

附录 B:景观分析

机器学习中模型文档现状概述

模型卡示例

模型卡及密切相关变体的示例包括:

大型语言模型的模型卡

大型语言模型通常会随附相关文档发布。拥有相关模型卡(或相关文档工具)的大型语言模型包括:

模型卡生成工具

用于程序化或交互式生成模型卡的工具包括:

模型卡教育工具

用于理解模型卡和学习如何创建模型卡的工具包括:


请引用:Ozoani, Ezi 和 Gerchick, Marissa 和 Mitchell, Margaret. 模型卡指南。Hugging Face, 2022. https://huggingface.co/docs/hub/en/model-card-guidebook

< > 在 GitHub 上更新