使用 Substra 创建隐私保护型人工智能

发布于 2023 年 4 月 12 日
在 GitHub 上更新

随着生成式技术最近的兴起,机器学习正处于其历史上一个令人难以置信的激动人心的时刻。推动这一兴起的模型需要更多数据才能产生有影响力的结果,因此,探索道德地收集数据的新方法,同时确保数据隐私和安全始终是重中之重,正变得越来越重要。

在许多处理敏感信息的领域,例如医疗保健,通常没有足够的高质量数据来训练这些数据密集型模型。数据集被隔离在不同的学术中心和医疗机构中,并且由于对患者和专有信息的隐私担忧,难以公开共享。保护患者数据的法规,例如 HIPAA,对于保护个人私人健康信息至关重要,但它们可能会限制机器学习研究的进展,因为数据科学家无法访问有效训练模型所需的数据量。与现有法规协同工作,主动保护患者数据的技术,对于打破这些壁垒并加速这些领域机器学习研究和部署的步伐至关重要。

这就是联邦学习发挥作用的地方。查看我们与 Substra 共同创建的 空间 以了解更多信息!

什么是联邦学习?

联邦学习 (FL) 是一种去中心化的机器学习技术,允许您使用多个数据提供商来训练模型。数据可以保留在本地服务器上,因为只有生成的模型权重在服务器之间传输,而不是将所有来源的数据收集到单个服务器上。

由于数据从未离开其来源,联邦学习本质上是一种隐私优先的方法。这项技术不仅提高了数据安全性和隐私性,还使数据科学家能够使用来自不同来源的数据构建更好的模型——与仅使用单一来源数据训练的模型相比,提高了鲁棒性并提供了更好的表示。这不仅有价值在于增加了数据量,而且还降低了由于底层数据集的变化(例如数据捕获技术和设备造成的微小差异,或患者人群人口分布的差异)而导致的偏差风险。通过多种数据来源,我们可以构建更具泛化性的模型,最终在实际场景中表现更好。有关联邦学习的更多信息,我们建议您查看 Google 的这本解释性 漫画

Substra quote

Substra 是一个为真实世界生产环境构建的开源联邦学习框架。尽管联邦学习是一个相对较新的领域,并且在过去十年中才开始流行,但它已经使机器学习研究以以前无法想象的方式取得进展。例如,在 MELLODDY 项目中,10 家相互竞争的生物制药公司(传统上绝不会彼此共享数据)通过共享全球最大的已知生化或细胞活性小分子集合,建立了一个合作项目。这最终使所有参与的公司能够构建更准确的药物发现预测模型,这是医学研究的一个巨大里程碑。

Substra x HF

联邦学习能力的研究正在迅速发展,但最近的大多数工作都局限于模拟环境。由于部署和构建联邦网络的困难,现实世界的例子和实现仍然有限。作为联邦学习部署的领先开源平台,Substra 已在许多复杂的安全环境和 IT 基础设施中久经考验,并促成了 乳腺癌研究方面的医学突破

Substra diagram

Hugging Face 与 Substra 的管理人员合作创建了这个空间,旨在让您了解研究人员和科学家所面临的现实世界挑战——主要是缺乏集中化、高质量的“可用于 AI”的数据。由于您可以控制这些样本的分布,因此您将能够看到一个简单模型对数据变化的反应。然后,您可以检查与使用单一来源数据训练的模型相比,使用联邦学习训练的模型在验证数据上的表现几乎总是更好。

结论

尽管联邦学习一直处于领先地位,但还有各种其他隐私增强技术 (PET),例如安全飞地和多方计算,它们正在实现类似的结果,并且可以与联邦结合使用,以创建多层隐私保护环境。如果您对这些技术如何促成医学领域的合作感兴趣,可以在此处了解更多信息。

无论使用何种方法,我们都必须警惕数据隐私是所有人的权利这一事实。在当前人工智能蓬勃发展之际,我们必须牢记隐私和伦理

如果您想试用 Substra 并在项目中实现联邦学习,可以在此处查看文档。

社区

注册登录 以评论