净化共享资源
我们正在发布有害共享资源集合,这是一个用于从训练数据中移除有害内容(特别是多语言、历史和OCR数据)的工具包和管道。本次发布包括:
- Celadon,我们的有害内容分类器,经过训练可检测九种语言的有害内容。
- 有害共享资源,我们的数据集包含200万个文本样本,已标注五种类型的有害内容。
- 我们的预印本《共享资源的有害性:策展开源预训练数据》,其中我们描述了管道以及我们如何创建数据集和分类器。
大型预训练语料库通常包含大量有害内容,包括对特定人群的刻板印象或冒犯性语言。减少这些语料库中的有害内容并非易事,并且是一个活跃的研究领域。但当我们考虑使用公共领域数据时,问题变得更加复杂。今年早些时候,我们发布了一批文化遗产文本,作为最大的公共领域预训练语料库的一部分。这些数据集由多种语言的专著和期刊文本组成,主要是较旧的文本,大部分来自18世纪和19世纪。
我们发现现有有害内容分类器在我们的数据上表现不佳,因为我们的文化遗产数据具有以下特点:
- 多语言:Common Corpus中的数据主要涵盖英语、法语、荷兰语、西班牙语、德语和意大利语,以及少量其他语言的数据。
- 历史性:在过去几个世纪中,可接受的语言类型发生了巨大变化。我们需要删除过去几个世纪中更常见的、大多数分类器从未训练过检测的偏见和有害语言类型。
- OCR数据:Common Corpus中的绝大多数文本来自数字化文本。根据数字化时间和方式的不同,有些文本包含大量的OCR错误。这使得现有有害内容分类器更难在此数据上良好工作。
我们的分类器Celadon是一个修改过的DeBERTa-v3-small模型(约1.4亿参数),我们从有害共享资源的60万个标注样本中从头开始训练。标注是使用Llama 3.1 8B生成的。详见预印本。Celadon识别五种有害内容:
- 基于种族和出身的偏见:包括种族主义以及对某人的原籍国、地区或移民身份(特别是移民或难民身份)的偏见。
- 基于性别和性取向的偏见:包括性别歧视和厌女症、恐同症、恐跨症和性骚扰。
- 宗教偏见:任何基于某人宗教的偏见或刻板印象。
- 能力偏见:根据某人的身体、精神或智力能力或残疾的偏见。
- 暴力和虐待:对暴力的过于生动的描述、暴力威胁或煽动暴力的呼吁。
我们使用Celadon来识别预训练数据中的有害内容,然后根据有害程度,为文本生成内容警告或对其进行合成改写以使其无害。我们训练分类器来完成这项工作,而不是使用Llama 3.1 8B,是为了降低成本。我们发现使用Llama生成10万个样本需要3.4小时,而使用Celadon只需5分钟。Celadon比LLM标注快40多倍。
根据文本在五个维度上的有害性评分,我们可以有几种处理文本的方式。最明显的处理是移除有害内容,特别是那些有害性评分非常高的内容。这个过程无疑会减少模型的有害行为,但也可能产生意想不到的后果。事实证明,过滤有害内容会减少边缘化群体(如 LGBTQ+ 人群)或少数民族方言(如非洲裔美国英语)的文本或与这些群体相关的文本(Dodge 等人,2021;Zhou 等人,2021)。这也是一个问题,因为公共领域数据已经稀缺。移除过多数据可能导致数据集过小,无法训练语言模型。相反,我们提出了两种处理被标记为有害内容的方法:
- 合成内容警告:根据文本被分类为有害内容的维度,我们使用Llama 3.1等大型语言模型生成一个特定的内容警告,在训练期间显示在文本之前。这对于轻度有害内容是一种理想的方法。目的是开发一个能够推理有害内容模型。
- 合成改写:对于极端有害的内容,我们使用大型语言模型以完全无害的方式改写内容。这有助于我们保持相似的数据集大小,同时仍然移除数据集中最具危害性的部分。我们注意到,在我们的数据集中,只有极小一部分数据(约1%)接受了这种处理。
有关我们认为“有害”样本的更多详细信息,请参阅我们论文的“预训练数据策展”部分。
在未来的工作中,我们希望提供进一步的实证证据,以证明此过程在减少有害模型行为方面的有效性。
我们发布有害共享资源是开放科学实践的一部分,但它本身作为研究对象也很有用。它可以用于研究有害语言和毒性语言随时间、按体裁(书籍或报纸)以及跨九种语言的变化。对于NLP从业者来说,有害共享资源也可以作为开发安全和有益的模型对有害内容响应的工具。除了我们在此发布的特定工具之外,我们还展示了一个可以适用于任何数据集或应用程序的管道。我们希望在此表明,通过数据集策展作为现有程序的补充,存在有效且高效的方法来减少语言模型中的有害行为。
创建标注和训练分类器的代码可在Github上获取:https://github.com/Pleias/toxic-commons。更多详细信息可在论文中找到。