使用 Presidio 实验性地在 Hub 上进行自动 PII 检测
在 Hugging Face,我们注意到在我们的 Hub 上托管的机器学习 (ML) 数据集中存在一个令人担忧的趋势:关于个人的未文档化私有信息。这给机器学习从业者带来了一些独特的挑战。在这篇博文中,我们将探讨包含一类称为个人身份信息 (PII) 的私有信息的不同类型数据集,它们带来的问题,以及我们在数据集 Hub 上正在试验的一项新功能,以帮助解决这些挑战。
包含 PII 的数据集类型
我们注意到两种包含 PII 的数据集类型
- 带注释的 PII 数据集:像 Ai4Privacy 的 PII-Masking-300k 这样的数据集是专门为训练 PII 检测模型而设计的,这些模型用于检测和屏蔽 PII。例如,这些模型可以帮助进行在线内容审核或提供匿名数据库。
- 预训练数据集:这些是通常以 TB 为单位的大规模数据集,通常通过网络爬取获得。虽然这些数据集通常经过过滤以删除某些类型的 PII,但由于数据量庞大和 PII 检测模型的缺陷,仍有少量敏感信息可能遗漏。
机器学习数据集中 PII 的挑战
机器学习数据集中 PII 的存在会给从业者带来一些挑战。首先,它引发了隐私问题,并可能被用来推断个人的敏感信息。此外,如果处理不当,PII 可能会影响机器学习模型的性能。例如,如果模型在包含 PII 的数据集上进行训练,它可能会学会将某些 PII 与特定结果相关联,从而导致有偏见的预测或从训练集中生成 PII。
数据集 Hub 的新实验:Presidio 报告
为了帮助解决这些挑战,我们正在数据集 Hub 上试验一项新功能,该功能使用 Presidio,这是一个开源的最新 PII 检测工具。Presidio 依靠检测模式和机器学习模型来识别 PII。
通过这项新功能,用户将能够查看一份报告,其中估计数据集中 PII 的存在情况。这些信息对于机器学习从业者来说非常有价值,可以帮助他们在训练模型之前做出明智的决策。例如,如果报告表明数据集包含敏感 PII,从业者可以选择使用 Presidio 等工具进一步过滤数据集。
数据集所有者也可以通过使用报告来验证其 PII 过滤过程,然后再发布数据集,从而从这项功能中受益。
Presidio 报告示例
让我们看看这个 预训练数据集 的 Presidio 报告示例
在这种情况下,Presidio 检测到数据集中有少量电子邮件和敏感 PII。
结论
机器学习数据集中 PII 的存在是机器学习社区面临的一个不断演变的挑战。在 Hugging Face,我们致力于透明化并帮助从业者应对这些挑战。通过在数据集 Hub 上试验 Presidio 报告等新功能,我们希望能够赋能用户做出明智决策,并构建更健壮、更符合伦理的机器学习模型。
我们还要感谢 CNIL 在 GDPR 合规性 方面的帮助。他们的指导在处理人工智能和个人数据问题的复杂性方面发挥了宝贵作用。请在此处查看他们更新的 AI 操作指南 here。
敬请关注这项激动人心的新进展的更多更新!