附录
附录 A:用户研究
关键问题的完整文本回复
你如何定义模型卡片?
见解:受访者对模型卡片的看法基本一致:文档重点关注训练、用例以及偏差/局限性等问题。
- 模型卡片是对模型的描述,包括模型如何训练、其用例以及潜在的偏差和局限性。
- 描述模型基本特征的文档,以便读者/用户了解其面前的工件、背景/训练、如何使用以及其技术/伦理局限性。
- 它们作为模型的活文档来记录模型。模型卡片包含的信息从对特定模型可用于什么的较高层次描述,到局限性、偏差、指标等等。它们主要用于了解模型的功能。
- 模型卡片之于模型,如同 GitHub README 之于 GitHub 项目。它告诉人们关于模型的所有需要知道的信息。如果不编写一个,没有人会使用你的模型。
- 据我了解,模型卡片使用某些基准(地理位置、文化、性别等)来定义模型的可用性和局限性。它本质上是模型的“营养成分标签”,可以展示模型的创建方式并教育其他人了解其可重用性。
- 模型卡片是关于模型的元数据和文档,我需要知道的所有信息才能正确使用模型:关于模型的信息、介绍它的论文、它是在哪个数据集上训练或微调的、它属于谁、该模型是否存在已知的风险和局限性、任何有用的技术信息。
- 在我看来,模型卡片是对模型的简要介绍,其中包括
- 模型架构特性的简要总结
- 描述其训练数据
- 在参考数据集上的性能(如果可能,精度和速度指标)
- 限制
- 如何在 Transformers 库的上下文中使用它
- 来源(原始文章、Github 仓库等)
- 任何背景的人都可以轻松访问的文档,并了解关键的模型组件和社会影响。
你喜欢模型卡片的哪些方面?
- 它们很有趣,可以让人们了解新的模型。
- 作为一个非技术人员,能够了解模型,理解它的基础,这是一个机会,让作者能够以透明和可解释(即可信)的方式披露其创新。
- 我喜欢带有视觉效果和小部件的交互式模型卡片,它们允许我在不运行任何代码的情况下试用模型。
- 我喜欢好的模型卡片的地方在于,你可以找到关于特定模型的所有你需要的信息。
- 模型卡片对人工智能伦理领域具有革命性意义。这是缓解/教育机器学习偏差的第一步切实可行的措施。它们促进了更大的意识和责任感!
- 结构化、详尽,信息越多越好。
- 它有助于了解模型擅长(或不擅长)什么。
- 简洁性和易访问性。
你不喜欢模型卡片的哪些方面?
- 可能会变得过于技术化和/或密集。
- 它们包含针对不同受众(研究人员、工程师、非工程师)的大量信息,因此很难使用预期的用例来浏览模型卡片。 * [注意:可以通过为不同受众提供切换视图来解决此评论]
- 好的模型卡片需要花费大量时间来创建。很难对其进行测试以确保信息是最新的。通常,模型卡片的格式完全不同——因此您必须弄清楚某个特定的人是如何构建它们的。 * [注意:此评论有助于证明标准化格式和自动化工具的价值,以便更容易创建模型卡片]
- 如果没有社区的帮助来提供补充评估,模型卡片可能会受到开发人员可能意识不到的固有偏差的影响。它们还处于早期阶段,但如果没有更彻底的评估,模型卡片的信息可能过于有限。
- 空的模型卡片。没有许可证信息——客户需要这些信息,但通常没有。
- 它们通常要么过于简洁,要么过于冗长。
- 编写它们 lol 保佑你
其他关键新见解
- 当由不同角色的人员填写时,模型卡片效果最佳:技术规范通常只能由开发人员填写;贯穿始终的伦理考量通常最好由倾向于处理伦理问题的人员提供信息。
- 模型用户非常关心许可证——特别是模型是否可以合法地用于特定任务。
附录 B:现状分析
机器学习中模型文档现状概述
模型卡片示例
模型卡片和密切相关的变体的示例包括
- Google Cloud:人脸检测,物体检测
- Google Research:ML Kit 视觉模型,人脸检测,对话式 AI
- OpenAI:GPT-3,GPT-2,DALL-E dVAE,CLIP
- NVIDIA 模型卡片
- Salesforce 模型卡片
- Allen AI 模型卡片
- Co:here AI 模型卡片
- 杜克大学 PULSE 模型卡片
- 斯坦福大学 Dynasent
- GEM 模型卡片
- Parl.AI:Parl.AI 模型卡片示例,BlenderBot 2.0 2.7B
- Perspective API 模型卡片
- 查看 https://github.com/ivylee/model-cards-and-datasheets 获取更多示例!
大型语言模型的模型卡片
大型语言模型通常会附带相关的文档。拥有关联模型卡片(或相关文档工具)的大型语言模型包括
模型卡片生成工具
用于以编程方式或交互方式生成模型卡片的工具包括
- Salesforce 模型卡片创建
- TensorFlow 模型卡片工具包
- GSA/美国人口普查局关于模型卡片生成器的合作
- Parl.AI 自动生成工具
- VerifyML 模型卡片生成网页工具
- 作为 vetiver 软件包一部分的 RMarkdown 模型卡片模板
- Databaseline ML 卡片工具包
模型卡片教育工具
用于理解模型卡片以及如何创建模型卡片的工具包括
请引用为:Ozoani, Ezi 和 Gerchick, Marissa 和 Mitchell, Margaret。模型卡片指南。Hugging Face,2022 年。https://huggingface.co/docs/hub/en/model-card-guidebook
< > 在 GitHub 上更新