当人工智能开口时,我们听到的是谁的声音?

社区文章 发布于2025年6月20日

几周前,我有幸在挪威NORA年度会议上发言,分享了一些关于大型语言模型(LLMs)跨语言和文化边界的伦理思考。我没想到这次演讲会引起如此强烈的共鸣,但事实确实如此。或许是因为这些问题对全球许多人来说正变得越来越真实、可见和深刻地个人化。

如今,大型语言模型被广泛应用于从教育到医疗保健再到客户服务的各个领域。它们融入了公共服务和私人决策。然而,尽管它们日益普及,我们却很少停下来思考:谁在塑造这些模型背后的世界观?它们传承了哪些语言和价值观?又有哪些完全缺失了呢?

语言塑造思维,人工智能亦然

语言塑造着我们对世界的理解。每种语言都内嵌着其自身的文化价值观、假设和历史。因此,当我们构建“会说话”的AI系统时,我们不仅在决定它们如何说话,还在决定它们以谁的视角说话——以及谁被排除在外。在像挪威这样的多语种环境中,这些问题变得更加明显。挪威语本身就分裂成多种方言(就像意大利和许多其他国家一样),有些主要以口语形式存在,有些则很少有书面形式。因此,即使是“AI是基于哪个版本的挪威语训练的?”这样一个简单的问题,也成为了引出关于排斥、权力与代表性等更深层次担忧的切入点。

当一个AI系统“说”一种语言,但其学习形式仅来自抓取、未经证实的来源时,会发生什么?翻译过程中哪些内容被扁平化或丢失了?谁来决定什么是有效的?这些问题对于资源匮乏的语言来说尤其紧迫,因为这些语言往往缺乏大型语料库,并且在模型训练中代表性不足。实际上,这意味着许多社区完全被排除在AI循环之外,或者以令人感到陌生、不准确甚至冒犯的方式被代表。

人工智能中的文化假设:CIVICS案例

在我的演示中,我分享了我们最近在Hugging Face上进行的一个项目:CIVICS——即“文化知情且价值包容的社会影响语料库”的缩写。这是一个多语言、手动策划的数据集,它收集了来自不同国家背景、五种不同语言的关于移民、LGBTQI+权利、社会福利、残疾和代孕等主题的具有伦理争议的陈述。

我和我的合著者构建CIVICS是为了更好地理解模型如何处理跨语言的价值负荷内容。而我们的发现应该让我们深思。

完全相同的陈述——例如关于德国移民或意大利LGBTQI+倡导的陈述——根据其表达的语言,可能会引发模型完全不同的回应。在几个模型中,拒绝回答在英语中比在土耳其语或意大利语中更常见。一些模型会用一种语言处理一个陈述,但当它以另一种语言出现时,却会拒绝或提供一个模糊、含糊的答复。在其他情况下,模型在翻译之间甚至完全自相矛盾。

这些不一致反映了模型是如何被训练和微调的:哪些语言获得了更多关注,哪些安全过滤器被更积极地应用,以及哪些价值框架被隐性地嵌入到系统中。CIVICS帮助我们将此可视化。

通过从真实世界来源(政府文件、公民社会出版物、国家媒体)精心制作每个提示,我们将数据集建立在真实的语言使用之上。没有自动化翻译,没有合成数据,只有其文化和政治背景下的真实话语。

目标不是建立一个传统意义上的基准。而是创建一个用于反思和调查的工具:一种测试模型处理多元化和分歧能力的方法。

与社区共建,而非仅仅为社区而建

伦理AI开发并非在最后添加一层审批。这意味着将价值观融入我们工作的基础,从数据、治理模型、评估流程以及所涉社区开始。

在资源匮乏的环境中,这可能意味着直接与当地合作伙伴合作:图书馆、大学、原住民组织、语言教师。这可能意味着启动转录计划以捕捉口述历史,或构建小型、精选的语料库,以更好地反映社区的真实生活——即使它们不符合当今机器学习标准的“大规模”。这也意味着以不同的方式测试模型。不仅仅是为了准确性或基准分数,而是为了文化一致性、代表性公平和价值敏感行为。我们需要分析拒绝率,识别内容空白,并将社区反馈纳入我们评估和微调模型的方式。

我们想要什么样的人工智能?

随着AI系统持续扩展,我们面临一个选择:要么以更大规模复制现有的不平等,要么致力于构建尊重语言、价值观和视角的多元化系统。

在Hugging Face,我们相信开源AI和社区主导的研究是实现这个更美好未来的关键。当数据集、模型和评估公开透明时,我们为更多声音被听到创造了空间。我们使社区能够根据自己的需求调整AI,而不是被其他地方为他人构建的系统所塑造。所以,下次当你与AI系统互动时(无论是作为开发者、政策制定者,还是仅仅作为一个好奇的用户),问问自己:这是谁的声音?这是谁的世界观?以及如何才能让这个声音更具包容性,更贴近当地?

社区

注册登录发表评论