好的答案不一定是事实答案:对主流大型语言模型幻觉的分析
我们正在分享 Phare 的首批成果,Phare 是我们用于评估语言模型的多语言基准。该基准研究揭示,领先的 LLM(大型语言模型)自信地产生事实不准确的信息。我们对来自八个 AI 实验室的顶级模型的评估显示,它们会生成听起来权威的响应,其中包含完全捏造的细节,尤其是在处理错误信息时。
引言
2 月份,我们宣布了 Phare(潜在危害评估与风险评估)项目,这是一个全面的多语言基准,旨在评估领先 LLM 在四个关键领域(幻觉、偏见与公平性、有害性以及通过越狱等技术抵御蓄意滥用的脆弱性)的安全性和可靠性。
在未来几周,我们将分享对这些类别中每一个的深入分析。今天,我们从幻觉开始,这是一个对生产应用具有严重影响的挑战。在我们最近的 RealHarm 研究中,我们审查了所有影响 LLM 应用的已记录事件,发现幻觉问题占已部署 LLM 应用中所有已审查事件的三分之一以上。这一发现强调了理解和减轻幻觉风险的实际相关性。
幻觉之所以特别令人担忧,在于其欺骗性:听起来权威的回答可能完全误导那些缺乏专业知识来识别事实错误的 کاربران。随着组织越来越多地在关键工作流程中部署 LLM,理解这些限制成为一项重要的风险管理考量。
在这第一篇文章中,我们将探讨我们的基本方法,并讨论 Phare 基准揭示的幻觉的三个关键方面:幻觉如何表现,哪些因素影响幻觉倾向,以及哪些模型最容易受到影响。
方法论
Phare 基准采用系统性评估流程,确保语言模型评估的一致性和公平性。
- 来源收集:我们收集反映 LLM 真实使用模式的特定语言内容和初始提示(目前为英语、法语和西班牙语)。
- 样本生成:我们将源材料转换为评估测试用例,其中包括将呈现给语言模型的测试提示(问题或多轮情景)以及根据任务确定的具体评估标准。
- 人工审查:所有样本均经过人工标注和质量验证,以确保评估的准确性和相关性。
- 模型评估:我们让语言模型回答我们的测试场景,然后根据既定标准对其回复进行评分。
方法论
幻觉模块通过多个任务类别评估模型,旨在捕捉模型可能生成误导性或虚假信息的不同方式。目前的评估框架包括以下四项任务:事实准确性、错误信息抵抗、辟谣能力和工具可靠性。
事实准确性通过结构化问答任务进行测试,衡量模型检索和传达既定信息的精确度。
错误信息抵抗检查模型正确驳斥模糊或不恰当问题,而不是编造支持这些问题的叙述的能力。
辟谣测试模型是否能识别并驳斥伪科学主张、阴谋论或都市传说,而不是强化或放大它们。
工具可靠性衡量 LLM 如何有效利用外部功能(如 API 或数据库)来准确执行任务。我们尤其评估 LLM 在非理想条件下(例如信息不完整、误导性上下文或模糊查询)与工具交互的能力。例如,当工具通常需要一个人的名字、姓氏和年龄时,我们模拟一个只提供名字和姓氏的用户请求,并检查模型如何响应——它是要求提供缺失的年龄,还是通过伪造一个假值来继续。这种方法提供了更真实的衡量模型在面对实际部署中遇到的不完美输入时的表现。
主要发现
1. 模型受欢迎度并不能保证事实可靠性
我们的研究揭示了用户偏好与幻觉抵抗力之间存在令人担忧的脱节。在 LMArena 等主要衡量用户偏好和满意度的流行基准中排名最高的模型,不一定是最能抵抗幻觉的模型。对用户体验的优化有时会以牺牲事实准确性为代价。
考虑以下示例,模型生成了一个雄辩、权威的回复,尽管其中包含完全虚构的信息,但很可能在用户偏好指标上获得高分。
主要针对用户满意度优化的模型,即使事实基础可疑或不存在,也始终提供听起来合理且权威的信息。没有领域专业知识的用户无法检测到这些不准确之处,这使得这些幻觉在实际应用中尤其成问题。
2. 问题表述方式显著影响辟谣效果
我们的评估揭示了用户查询中感知的自信或权威性与模型反驳争议性主张的意愿之间存在直接关系。这种现象被称为“逢迎”。
我们的测试显示,当用户以高度自信的方式提出争议性主张或引用公认的权威时,大多数模型反驳这些主张的可能性显著降低。以高度自信的方式提出主张(例如“我百分之百确定……”或“我的老师告诉我……”)可能导致辟谣表现相对于中性表述(例如“我听说……”)下降高达 15%。
逢迎效应可能是 RLHF 训练过程的副产品,该过程鼓励模型对用户友好和乐于助人。这在准确性和与用户期望(特别是当这些期望包含虚假前提时)之间造成了紧张关系。
积极的一面是,一些模型显示出对逢迎的抵抗力(Anthropic 模型和 Meta 的 Llama 的最大版本),这表明可以在模型训练层面解决这个问题。
3. 系统指令显著影响幻觉率
我们的数据显示,系统指令的简单更改会显著影响模型的幻觉倾向。强调简洁的指令(例如“简要回答这个问题”)会普遍降低大多数受测试模型的事实可靠性。在最极端的情况下,这导致幻觉抵抗力下降了 20%。
这种效应似乎是因为有效的反驳通常需要更长的解释。当被迫保持简洁时,模型面临着一个不可能的选择:是编造简短但不准确的答案,还是通过完全拒绝问题而显得无用。我们的数据显示,在这些限制下,模型始终优先选择简洁性而非准确性。
这一发现对部署具有重要意义,因为许多应用程序为了减少令牌使用、提高延迟和降低成本而优先考虑简洁的输出。我们的研究表明,这种优化应针对事实错误风险的增加进行彻底测试。
结论
Phare 基准揭示了 LLM 中幻觉的一些惊人模式。你最喜欢的模型可能很擅长提供你喜欢的答案,但这并不意味着这些答案是真实的。我们的测试表明,用户满意度排名最高的模型通常会生成听起来权威但包含虚假信息的回复。
问题的提出方式会极大地影响模型的回应。它们对用户语气中的自信程度出奇地敏感。当信息被试探性地提出(“我听说……”)时,模型可能会纠正它。如果以自信的方式提出同样的虚假信息(“我老师告诉我……”),模型突然更有可能接受它。
也许对开发者来说最重要的是,看似无害的系统提示(如“简洁”)可能会损害模型辟谣的能力。当被迫保持简短时,模型始终选择简洁而不是准确——它们根本没有空间承认虚假前提、解释错误并提供准确信息。
在未来几周,我们将分享来自偏见与公平性以及有害性模块的更多发现,以继续开发更安全、更可靠的人工智能系统的综合评估框架。
我们邀请您访问 phare.giskard.ai 探索完整的基准测试结果。对于有兴趣为 Phare 计划做出贡献或测试自己模型的组织,请通过 phare@giskard.ai 联系 Phare 研究团队。
Phare 是 Giskard 与 Google DeepMind、欧盟和 Bpifrance 作为研究和资助合作伙伴共同开发的项目。