揭示 CIVICS:一个用于检测语言模型中文化价值观的新数据集
在快速发展的人工智能 (AI) 领域,技术尊重并代表用户的多元价值观和文化至关重要,特别是考虑到大型语言模型 (LLM) 被应用于关键的现实世界用例。我们的最新研究,发表在论文《CIVICS:构建用于检测大型语言模型中文化价值观的数据集》中,引入了一个新颖的数据集,旨在识别不同语言和大型语言模型(LLM)之间在此现象上的差异。
引入 CIVICS
CIVICS(Culturally-Informed & Values-Inclusive Corpus for Societal impacts,文化知情与价值观包容的社会影响语料库)数据集是一项旨在评估开放权重 LLM 生成响应中的社会和文化差异的倡议。该数据集经过人工精心策划,包含多种语言的带有价值观的提示,涉及 LGBTQI 权利、社会福利、移民、残疾人权利和代孕等敏感社会话题。值得注意的是,对于英语和法语,提示来自多个国家,以确保广泛的文化视角。在此背景下,与以往通常依赖自动翻译或专注于单一语言(通常仅限英语)的数据集不同,我们的 CIVICS 数据集是人工策划的,涵盖五种语言和九个国家背景。
CIVICS 数据集涵盖的语言和国家。
我们为什么需要像 CIVICS 这样的数据集?
众所周知,将 LLM 整合到各种数字基础设施中改变了我们与技术的互动方式。这些模型现在支持多种服务,从自动化客户支持到临床决策支持等高风险应用。鉴于其影响力,LLM 必须体现并传达具有文化包容性和多元价值观的价值。然而,由于不同文化、领域和语言的价值观各异,设计此类系统极具挑战性。
我们的最初动机源于一项探索性研究,该研究强调了 GPT-3 在总结不同语言的价值观提示时所持的以美国为中心的视角。这一发现显示了最初需要一种更具全球包容性的方法,从而促使我们开发了 CIVICS。
CIVICS 的主要贡献
多语言和跨国范围:CIVICS 涵盖五种语言和九个国家背景,样本由母语使用者收集,以确保语言和文化的真实性。这种方法有助于捕捉每种文化中价值观的细微表达。拥有五种不同语言(土耳其语、德语、意大利语、法语、英语)并从多个国家(新加坡、加拿大和澳大利亚的英语;法国和加拿大的法语)获取同一种语言的提示,为这些语言作为官方语言但具有与美国不同的文化环境、背景和价值观的地区提供了覆盖。
多样化主题:该数据集涵盖了一系列与这些语言所使用的地区的社会政治格局相关的社会敏感话题。这包括经常处于社会辩论前沿的问题,为评估 LLM 的文化偏见提供了丰富的依据。
动态标注过程:我们的方法涉及详细的标注过程,重点关注准确性和一致性。论文的共同作者对每个提示应用了多个标签,反映了这些主题固有的多样化价值观。
实验设置:我们采用了两种实验设置来评估数据集:一种基于与最先进评估套件评估实践一致的对数概率,另一种基于反映用户与 LLM 交互的长篇响应。这些实验揭示了不同 LLM 之间显著的社会和文化差异,尤其是在它们对敏感话题的响应方面。
发现和启示
我们使用 CIVICS 数据集进行的实验表明,在英语或翻译的陈述中,拒绝和响应差异更为明显。移民、LGBTQI 权利和社会福利等话题在模型之间表现出最显著的差异(参见图 1 和此空间以获取更多 LLM 响应)。这些初步发现揭示了所测试的开放权重 LLM 中嵌入的各种伦理和文化立场,表明像 CIVICS 这样的数据集对于揭示这些差异并指导未来研究避免它们是必要的。
图 1:LLM 对 LGBTQI 权利话题的响应和拒绝示例。
关于开放权重语言模型的选择,我们决定主要关注开放模型,以确保科学严谨性和可重现性。像 GPT-4 和 Claude 3 Opus 这样的封闭模型通常缺乏版本控制和后处理方法的透明度,这使得复制结果和进行彻底分析变得困难。开放权重模型允许我们完全控制所使用的版本,确保评估的一致性,并提供可重现和可验证结果所需的透明度。还有一个技术原因:为了评估输出来自基础语言模型(也称为“基础模型”)的可能性,必须能够量化“可能性”。在 LLM 的世界中,这具体是根据不同响应的对数概率函数来衡量的。封闭模型不保证对数概率的访问,但在大多数开放模型中提取起来非常简单。
拒绝回应
我们实验中的一个重要发现是不同开放权重模型之间文化偏见的差异。例如,对某些提示的拒绝响应在LLM之间差异显著。这些拒绝率受到模型隐含价值观和开发组织明确决策的影响。例如,在与LGBTQI权利和移民相关的话题中,拒绝尤其普遍。Qwen(中国)的拒绝次数最多(257次),其次是Mistral(法国)、Llama-3(美国)和Gemma(美国)。
我们结果部分的以下图表说明了这种变化
图2:模型在移民和LGBTQI权利话题上的拒绝分布,按模型、细粒度标签(顶部)和声明区域及语言(底部)分类。
这种拒绝行为表明,在不同文化背景下开发的模型,在处理某些主题时表现出不同程度的敏感性和伦理考量。此外,参数更多的模型通常在响应中表现出更高的变异性,较大的模型在价值取向的陈述中更容易表现出强烈赞同或强烈反对的倾向。
其他结果
- 移民:关于移民的陈述表现出最多的分歧评级。具体而言,与英语提示相比,土耳其语和意大利语的提示在 LLM 中引发了最广泛的响应差异。
- LGBTQI 权利:大多数模型倾向于认可与 LGBTQI 权利相关的陈述。然而,认同程度差异显著,一些模型表现出强烈支持,而另一些则更为中立。
- 社会福利:与移民类似,社会福利声明也引发了不同的反应。这表明语言模型与文化敏感话题之间存在复杂的相互作用。
未来方向
CIVICS 数据集旨在成为未来研究的工具,以促进开发尊重全球文化多样性和价值观多元化的人工智能技术。因此,我们希望通过开放许可提供数据集和工具,鼓励在这一及时敏感领域开展进一步的研究和开发。
总之,通过推出 CIVICS,我们希望为创建不仅技术精湛,而且尤其注重文化和伦理的人工智能系统迈出重要一步。随着我们将人工智能不断融入日常生活,确保这些技术包容并尊重不同的价值观将对其负责任和合乎伦理的部署至关重要。
此外,鉴于大型语言模型固有的偏见,减轻其观察到的偏见是一项具有挑战性的任务。虽然“完美去偏”是无法实现的,但我们的研究强调了实施更全面的社会影响评估的重要性,这些评估应超越传统的统计指标,同时兼顾定量和定性方面。我们呼吁研究人员严格测试其模型传播的文化愿景,无论是有意还是无意。简而言之,大型语言模型并非也永远不会完美无缺,因此没有万全之策,但开发新颖的方法以深入了解它们部署后的行为以及它们可能如何影响社会,对于构建更好的模型至关重要。
可在此处访问 CIVICS 数据集:https://huggingface.co/datasets/CIVICS-dataset/CIVICS,LLM 的部分响应可在此处访问:https://huggingface.co/spaces/CIVICS-dataset/CIVICS-responses。您还可以在 TechCrunch 上阅读有关该项目的更多信息。