AI溯源浏览器:迈向AI完整性的一步。

我们是EQTY Lab,致力于在公共问责制和开源AI方面建立信任。
我们多年来在数据完整性和AI不断发展的领域中摸索,这让我们将重心放在一个关键要素上:AI模型的溯源。开发AI时,事情进展很快。您进行实验。您与许多人协作。跟踪所有移动部件是很困难的。
但我们必须做好。透明和可复现的开放研究在AI技术的民主化——并使其保持开放——方面发挥着至关重要的作用。
今天,我们将在Hugging Face Spaces上推出我们首款产品的早期开放版本:AI溯源浏览器。
该工具是一个实用的解决方案,旨在增强整个AI工程过程的透明度,而不会妨碍您的工作。它是免费的,可以直接从您的Hugging Face模型页面启动。
我们与我们最喜爱的设计师合作,实现了这一目标,并引入了一些非常酷的新加密方法,使其成为我们希望每个人都愿意使用的可靠工具。
我们构建AI溯源浏览器时考虑了两个简单的目标:
创建一个防篡改清单,在您发布时随附,以增强您创作的信任度。
将枯燥的证明转换为沉浸式蓝图,提供模型整个生命周期的实时可视化——现在只需在Hugging Face上点击一下即可。
通过AI溯源浏览器,您可以:
- 检查您的模型数据源
- 审查并分享其开发历程
- 确定其治理层——包括机器和人工
- 了解其应用或应用性能,例如基准测试结果
- 跟踪分布式资产
- 以及更多……
AI溯源浏览器的核心是我们称之为“完整性图”(Integrity Graph)的概念,它基于数字签名和可验证计算的密码学证明。这种方法受到了我们与内容真实性倡议组织(Content Authenticity Initiative)和知识共享组织(Creative Commons)等机构合作的启发。
它不仅仅是另一个负责任AI的理论框架;它是增强模型可问责性的实用基础。在此基础上,您可以做各种很棒的事情,比如设计合规性、触发自动化审查,甚至公平地支付人们的报酬。未来还有更多。
但首先,我们优先考虑了用户体验。
我们专注于创建一种简单的清单格式和与典型机器学习工程工作流程相符的界面,以最大程度地减少工作流程中断。您只需一行代码即可启动一个智能工具,它会在后台静默运行。
我们很快将发布一个开源SDK,它将允许任何人创建自己的完整性清单,并将其加载到我们的工具中以可视化模型溯源。
请稍等。我们正在努力尽快向您推出此功能。但我们迫不及待地想与大家分享带有一些实际实现的浏览器。
好奇它是如何工作的吗?在AI溯源浏览器中选择以下模型之一,我们在使用早期/私人版本的SDK创建这些模型时进行了人工协助:
有兴趣了解SDK发布更新吗?在此注册。
如果您想合作或有疑问,请随时联系hello@eqtylab.io。
如果您想了解更多信息,请继续阅读下文,而不仅仅是TL;DR。
关于我们方法的更多信息。
虽然我们已经在这个工具的不同版本上工作了一年多,但在此过程中,我们受到了几个项目的启发,例如斯坦福生态系统图(Stanford Ecosystem Graphs)、权重与偏差神器溯源(Weights and Biases Artifact Lineage),以及C2PA的内容凭证(Content Credentials)和验证(Verify)。
问题在于,AI由非常复杂的工程流程组成。您必须处理大量数据、大规模计算并管理具有挑战性的治理。
这仅仅是开始。现实情况是,大多数模型不仅仅是一个模型,而是模型和任务的集合。以Stable Diffusion 2的典型架构为例。它至少包含四个核心模型(如VAE的图像编码器、CLIP文本编码器、U-Net去噪模型和图像解码器),每个模型都有自己密集的训练历史和多个数据集——不包括Stable Diffusion自己的训练数据。酷炫的是,一群人想出了如何让这个模型工作,但关于该模型的实际来源仍然存在不确定性。
所以,这需要时间和一个坚定的社区(就像我们这里的社区)才能弄清楚。
那么,如何实现呢?
我们的设计理念围绕着顺应人们的需求,并在不扰乱工程师创建AI的方式的前提下保持高度实用性。
我们正在努力将一系列新工具集成到机器学习工作流程的每个步骤中。但我们不希望您过多关注它们。只需构建AI即可。这些步骤应该水到渠成
注册与文档:捕捉有关数据、模型、计算、治理和转换的关键声明。
完整性与信任:对每条声明进行数字签名,以通过加密方式建立所有输入、计算和输出的可归因性和防篡改性。
可验证性:使用图数据结构建立溯源链,增加透明度。
联邦协作:注册声明可以由多方生成,并组合在一起以描述协作过程。这些声明还可以选择锚定在公共账本上,从而促进AI进步的去中心化方法,并增加透明度和信任维度。
可组合性与集成:将自包含的完整性图作为单个数据模型上传到Hugging Face等仓库,实现轻松可视化和验证。
之后,展示您的成果,并轻松邀请他人帮助使您的模型变得更好。
最重要的是——这并非空洞的承诺。在开发AI溯源浏览器的过程中,我们发现自己对负责任AI的更广泛运动变得更加投入。以下是我们正在形成的信念的概述
AI创作的清晰度:通过标记AI生成的内容并为真实内容提供元数据,我们正在营造一个来源和真实性清晰的环境,但始终由用户控制。
训练数据中的道德基础:我们的工具鼓励透明和道德的AI训练实践,避免使用有问题的数据。
简化验证:根据新兴标准,我们的工具简化了凭证验证过程,这在越来越多的人滥用AI工具时尤为重要。
赋能内容创作者:通过自动化数字签名,我们让创作者更容易主张和保护自己的作品,而无需前往中心化注册机构。
开放AI访问:我们相信AI的民主化,而不是中心化。我们的工具是迈向AI可访问、安全并用于更大利益的未来的一步。
这仅仅是个开始。敬请期待。