政策问题博客1:为NAIAC专家组提供关于AI数据透明度的建议📚🔍⚖️
背景: 我最近受邀参加了国家AI咨询委员会组织的一个关于数据透明度标准的专家组会议。提供一个最低通用标准与概述最佳实践有所不同,需要满足不同的要求。在开场白中,我主张一个最低标准,即首先建议将AI系统的开发数据集和数据来源的交叉点视为最适当的粒度级别。要求关于哪些数据来源进入哪些数据集的最低信息,不足以支持完全的问责制,但对于其他监管和治理机制的有效性是必要的。
有意义的数据披露的最低标准
AI系统首先是其开发数据集的表示,这些数据集定义了模型的优势、风险和劣势范围。然而,这些数据集目前在流行的AI系统中被讨论得最少,在提议的监管方法中也最不被重视。这种可见性的缺失可能会阻碍使AI治理可持续、对技术变化具有鲁棒性以及包含AI开发者以外的视角的努力。
我们有共同的责任将AI数据集重新置于讨论的中心。最近的AI讨论主要集中在对开发日益令人印象深刻的系统所不可或缺的技术创新,这些系统来自于越来越大的数据集。虽然这些贡献确实值得关注,但监管机构也需要考虑这些系统对社会的影响最终是由它们所利用的数据属性决定的;从数据所代表的领域、人物和视角,到其数据主体(包括隐私、劳动、公平竞争和非歧视权)的各种权利。
还需要重新关注数据,因为AI系统评估的科学仍处于早期阶段。我们尚未拥有能够实现完全基于模型性能的监管的社会影响或安全基准,而且模型级别的测试是否能捕捉到这类数据驱动技术的所有社会风险,仍然是一个悬而未决的问题。即使在模型评估提供了准确信息的情况下,数据污染等普遍问题在没有数据集信息的情况下也会大大降低其可靠性。
因此,我们许多人一直在主张采取几种互补的数据透明度方法。数据集文档,如数据表和数据声明,由开发者编写,描述了塑造AI系统行为的“基本特征”,例如人口统计信息。数据测量通过提供包含多达数万亿个示例的数据集的定量摘要来补充此文档,其中手动检查不足以理解更广泛的社会和技术动态。交互式数据集可视化在提出问题方面还具有额外作用,可以赋能特定的利益相关者群体以与其利益相关并反映其科学专业知识的方式审视数据集。最后,直接访问开发数据集可以对训练动态、透明度工具以及对风险缓解策略有效性的审查进行重要研究。
通过适当的治理,这些实践无疑是有益的,并且对大多数开发者,特别是大公司来说,成本微乎其微。它们都应受到强烈鼓励,并且对于具有更敏感用例的AI系统是必需的。它们也很大程度上依赖于上下文,并且作为包含开放和协作开发设置的通用要求将难以操作化。
那么,一个更务实的最低有意义的数据透明度要求是什么样的呢?在此背景下定义“最低”,让我们看看外部研究人员和调查人员需要哪些必要信息,才能评估数据使用的社会和技术风险,无论开发者采用何种最佳实践。
首先,为此目的的数据标准需要包含一个系统开发中所涉及数据集的列表,包括其大小和用途。从超大型预训练数据集到偏好和微调数据以及评估基准,不同数据类型在各种开发数据集中的包含将具有不同的技术和社会影响。
其次,最低数据标准需要包含一个用于整理相关开发数据集的各种数据源的列表。这些数据可能来自非常多样化的来源,包括开发者与另一个组织之间的许可协议、公司通过服务产品收集的用户数据、通过网络爬取获得的公开数据,以及由开发者直接创建的数据。
了解这些数据源是什么,开发者是在何种条件下获取它们的,以及它们对各种开发数据集的贡献可能不足以完全指导重要决策,但它是使外部利益相关者能够识别潜在问题所必需的——例如,通过查看网络爬取中最常出现领域中编码的偏差,在许可协议中发现市场集中化的警示信号,以及检查收集AI训练数据的服务的使用条款。概括地说,可以总结为以下几点。对于任何AI系统,我们需要问:
- 使用了哪些数据集,其大小和用途是什么?
- 提供这些数据集的数据源是在何处以及在何种条件下获取的?
同样,如果不进行大量额外工作,这种标准本身不足以保证AI系统的良好治理——但它将为确保研究人员、记者和监管机构在尝试就重要主题做出知情决策时不会面临不可逾越的障碍奠定坚实基础。此外,它不会损害个人隐私,甚至不会损害本声明开头概述的技术和硬件贡献所涵盖的商业秘密。
当然,超越这个最低标准很可能是有价值的。开发数据集和原始数据源的交叉点将提供一个理想的基础,以建立提供全面数据表的要求。明确说明数据收集或许可如何考虑数据主体的选择退出偏好,也将大大有助于使技术更加注重同意并符合国际要求。最后,它将根据需要提供机会,以灵活的方式进行数据集测量、可视化和访问,从而利用外部研究人员的兴趣和专业知识。
我们确实需要推进透明度要求,而一个广泛适用的最低有意义标准似乎是向前迈出的实质性一步,尽管这仍将需要大量的额外投资,以确保AI系统确实是为了所有利益相关者的利益而开发的。