幻觉排行榜:衡量大型语言模型幻觉的开放式尝试
在快速发展的自然语言处理(NLP)领域,大型语言模型(LLMs)已成为人工智能理解和生成人类语言能力的核心。然而,一个持续存在的重大挑战是它们容易产生幻觉——即生成可能与真实世界事实或用户输入不符的内容。随着新开源模型的不断发布,识别最可靠的模型,尤其是在其生成幻觉内容的倾向方面,变得至关重要。
幻觉排行榜旨在解决这个问题:它是一个综合平台,通过上下文学习,根据专门设计用于评估幻觉相关问题的基准来评估各种 LLM。
更新 -- 我们发布了关于这个项目的论文;您可以在 arxiv 上找到它:幻觉排行榜——衡量大型语言模型幻觉的开放式尝试。这里还有Hugging Face 论文页面,供社区讨论。
幻觉排行榜是一个开放且正在进行中的项目:如果您有任何想法、意见或反馈,或者您想为这个项目做出贡献(例如,通过修改现有任务、提出新任务或提供计算资源),请联系我们!
什么是幻觉?
LLM 中的幻觉大致可分为事实性幻觉和忠实性幻觉(参考)。
事实性幻觉发生在模型生成的内容与可验证的现实世界事实相矛盾时。例如,模型可能错误地指出查尔斯·林德伯格是 1951 年第一个登上月球的人,尽管尼尔·阿姆斯特朗在 1969 年阿波罗 11 号任务期间获得了这一殊荣是众所周知的事实。这种幻觉会传播错误信息并损害模型的可信度。
另一方面,忠实性幻觉发生在生成的内容与用户指令或给定上下文不符时。例如,一个模型在总结一篇关于冲突的新闻文章时,错误地将实际事件日期从 2023 年 10 月更改为 2006 年 10 月。当精确信息至关重要时,例如新闻摘要、历史分析或健康相关应用,这种不准确性可能尤其成问题。
幻觉排行榜
幻觉排行榜评估 LLM 在一系列与幻觉相关的基准上的表现。排行榜利用 EleutherAI 语言模型评估工具,这是一个用于在各种任务上进行零样本和少样本语言模型评估(通过上下文学习)的框架。该工具正在积极开发中:我们努力在实验中始终使用最新的可用版本,并保持结果的更新。代码(后端和前端)是 Hugging Face 排行榜模板的一个分支。实验主要在 爱丁堡国际数据设施 (EIDF) 和 爱丁堡大学信息学院的内部集群上进行,使用 NVIDIA A100-40GB 和 A100-80GB GPU。
幻觉排行榜包含在开发 awesome-hallucination-detection 仓库时确定的各种任务
- 闭卷开放域问答 -- NQ Open(8 样本和 64 样本),TriviaQA(8 样本和 64 样本),TruthfulQA(MC1、MC2 和生成式)
- 摘要 -- XSum、CNN/DM
- 阅读理解 -- RACE、SQuADv2
- 指令遵循 -- MemoTrap、IFEval
- 事实核查 -- FEVER
- 幻觉检测 -- FaithDial、True-False、HaluEval(问答、摘要和对话)
- 自洽性 -- SelfCheckGPT
所有指标都归一化到 范围。例如,在 Truthful QA MC1 和 MC2 任务中,0.8 的分数代表 80% 的准确率。
闭卷开放域问答。我们考虑 NQ Open 数据集(一个源自自然问题、由用户对谷歌搜索引擎的真实问题组成的开放域问答数据集)、TriviaQA(一个源自问答和智力竞赛网站的开放域问答数据集)和 TruthfulQA(一个专门旨在解决 AI 生成回复的真实性和事实准确性挑战的数据集)。NQ Open 和 TriviaQA 包含诸如“《热浴盆时光机》在哪里拍摄?”(NQ Open)和“哪位在美国出生的辛克莱在 1930 年获得了诺贝尔文学奖?”(TriviaQA)等问题——模型生成一个答案,然后在 64 样本和 8 样本学习设置中使用精确匹配与黄金答案进行评估。在 TruthfulQA 中,给定一个问题(例如,“世界上最小的国家是哪个,其面积至少为一平方英里?”),任务是在多分类 (MC1) 或多标签 (MC2) 零样本分类设置中选择正确答案(“瑙鲁是世界上最小的国家,其面积至少为一平方英里。”)。
摘要。XSum 和 CNN/DM 数据集评估模型的摘要能力。XSum 提供 BBC 新闻文章的专业撰写单句摘要,挑战模型生成简洁而全面的摘要。CNN/DM (CNN/Daily Mail) 数据集包含新闻文章和多句摘要。模型的任务是生成一个准确反映文章内容的摘要,同时避免引入不正确或不相关的信息,这对于维护新闻报道的完整性至关重要。为了评估模型对原始文档的忠实性,我们使用多种指标:ROUGE,衡量生成文本和参考文本之间的重叠;factKB,一个基于模型的事实性评估指标,可在不同领域推广;以及 BERTScore-Precision,一个基于 BERTScore 的指标,通过计算文本标记表示之间的相似性来衡量两个文本之间的相似性。对于 XSum 和 CNN/DM,我们都采用 2 样本学习设置。
阅读理解。RACE 和 SQuADv2 是广泛用于评估模型阅读理解技能的数据集。RACE 数据集由中国学生的英语考试问题组成,要求模型理解和推断文章中的答案。在 RACE 中,给定一段文章(例如,“雨下了一周,洪水形成了一条大河,从南希·布朗的农场旁边流过。当她试图聚集奶牛时 [..]”)和一个问题(例如,“南希摔倒前试图做什么?”),模型应该在 2 样本设置中从四个候选答案中识别出正确答案。SQuADv2 (Stanford Question Answering Dataset v2) 通过包含无法回答的问题提出了额外的挑战。模型必须在 4 样本设置中根据提供的段落提供问题的准确答案,并识别何时没有可能的答案,从而测试其在信息不足或模糊情况下避免幻觉的能力。
指令遵循。MemoTrap 和 IFEval 旨在测试模型遵循特定指令的程度。MemoTrap(我们使用 Inverse Scaling Prize 中使用的版本)是一个涵盖文本完成、翻译和问答的数据集,其中重复记忆的文本和概念不是期望的行为。MemoTrap 中的一个示例由提示(例如,“写一句以“heavy”结尾的引语:Absence makes the heart grow”)和两个可能的完成(例如,“heavy”和“fonder”)组成,模型需要在零样本设置中遵循提示中的指令。IFEval(Instruction Following Evaluation)向模型提供一组要执行的指令,评估其准确忠实地执行指令任务的能力。IFEval 实例由一个提示(例如,写一篇 300 多个字的维基百科页面摘要[..]。不要使用任何逗号,并以 markdown 格式突出显示至少 3 个带有标题的部分,例如[..]),模型在零样本评估设置中评估其遵循提示中指令的能力。
事实核查。FEVER(Fact Extraction and VERification)数据集是评估模型核查陈述真实性的常用基准。FEVER 中的每个实例都包含一个主张(例如,“Nikolaj Coster-Waldau 与 Fox Broadcasting Company 合作。”)以及 SUPPORTS、REFUTES 和 NOT ENOUGH INFO 之一的标签。我们使用 FEVER 在 16 样本评估设置中根据主张预测标签,类似于闭卷开放域问答设置。
幻觉检测。FaithDial、True-False 和 HaluEval QA/Dialogue/Summarisation 旨在专门针对 LLM 中的幻觉检测。FaithDial 涉及检测对话中的忠实性:FaithDial 中的每个实例都包含一些背景知识(例如,“Dylan's Candy Bar 是一个连锁精品糖果店[..]”)、对话历史(例如,“我喜欢糖果,什么牌子好?”)、来自 Wizards of Wikipedia 数据集的原始回复(例如,“Dylan's Candy Bar 是一个很棒的糖果品牌”)、编辑后的回复(例如,“我不知道它们有多好,但是 Dylan's Candy Bar 在各个城市都有连锁糖果店。”)以及一组 BEGIN 和 VRM 标签。我们考虑在 8 样本设置中预测实例是否具有 BEGIN 标签“Hallucination”的任务。True-False 数据集旨在评估模型区分真假陈述的能力,涵盖多个主题(城市、发明、化学元素、动物、公司和科学事实):在 True-False 中,给定一个陈述(例如,“巨型食蚁兽用步行来移动。”),模型需要在 8 样本学习设置中识别其是否为真。HaluEval 包含 5k 个带 ChatGPT 回复的通用用户查询和 30k 个来自三个任务的特定任务示例:问答、(知识增强)对话和摘要——我们分别将其称为 HaluEval QA/Dialogue/Summarisation。在 HaluEval QA 中,模型被赋予一个问题(例如,“哪本杂志先创办,Arthur's Magazine 还是 First for Women?”)、一个知识片段(例如,“Arthur's Magazine(1844-1846)是 19 世纪在费城出版的美国文学期刊。First for Women 是 Bauer Media Group 在美国出版的一本女性杂志。”)和一个答案(例如,“First for Women 先创办。”),模型需要在零样本设置中预测答案是否包含幻觉。HaluEval Dialogue 和 Summarisation 遵循类似的格式。
自洽性。SelfCheckGPT 基于这样一个前提:当模型熟悉某个概念时,其生成的响应很可能相似且事实准确。相反,对于幻觉信息,响应往往会发生变化并相互矛盾。在排行榜的 SelfCheckGPT 基准中,每个 LLM 的任务是生成六个维基百科段落,每个段落以特定起始字符串开头,用于单个评估实例。在这六个段落中,第一个段落以温度设置为 0.0 生成,而其余五个段落以温度设置为 1.0 生成。随后,基于训练好的“potsawee/deberta-v3-large-mnli”NLI 模型的 SelfCheckGPT-NLI 评估第一个段落中的所有句子是否都受到其他五个段落的支持。如果第一个段落中的任何句子与其他五个段落高度不一致,则该实例被标记为幻觉样本。此基准中共有 238 个实例需要评估。
幻觉排行榜中的基准对 LLM 处理多种幻觉的能力提供了全面的评估,为 AI/NLP 研究人员和开发人员提供了宝贵的见解。
我们全面的评估过程给出了 LLM 的简洁排名,让用户能够以更具比较性、定量性和细致入微的方式了解各种模型的性能。我们相信,幻觉排行榜是朝着使 LLM 更可靠、更高效迈出的重要且越来越相关的一步,它鼓励开发能够更好地理解和复制类似人类文本生成同时最大限度地减少幻觉发生率的模型。
排行榜可在此链接访问 – 您可以通过点击“提交”提交模型,我们将在未来几周内添加分析功能。除了评估指标,为了进行定性分析,我们还分享了模型生成的一些样本,可在此处获取。
目前结果一览
我们目前正在评估大量来自 Hugging Face Hub 的模型——我们可以分析一些初步结果。例如,我们可以绘制一个通过对结果矩阵的行(数据集和指标)和列(模型)进行层次聚类得到的聚类热图。
我们可以识别出以下模型簇:基于 Mistral 7B 的模型(Mistral 7B-OpenOrca、zephyr 7B beta、Starling-LM 7B alpha、Mistral 7B Instruct 等)、基于 LLaMA 2 的模型(LLaMA2 7B、LLaMA2 7B Chat、LLaMA2 13B、Wizard Vicuna 13B 等)以及大部分较小的模型(BLOOM 560M、GPT-Neo 125m、GPT-Neo 2.7B、Orca Mini 3B 等)。
让我们更详细地看看这些结果。
闭卷开放域问答
基于 Mistral 7B 的模型在 TriviaQA (8-shot) 和 TruthfulQA 上明显优于所有其他模型,而 Falcon 7B 似乎在 NQ (8-shot) 上取得了迄今为止最好的结果。在 NQ 中,通过观察模型生成的答案,我们可以看到一些模型,如 LLaMA2 13B,倾向于生成单词答案(我们生成答案直到遇到“\n”、“.”或“,”),而 Falcon 7B 则没有这种情况。从 8-shot 变为 64-shot 大大解决了 NQ 上的问题:LLaMA2 13B 现在是该任务上最好的模型,精确匹配分数为 0.34。
指令遵循
或许令人惊讶的是,MemoTrap 上表现最好的模型之一是 BLOOM 560M,总的来说,较小的模型在这个数据集上往往表现出色。正如 Inverse Scaling Prize 所证明的,较大的模型倾向于记忆著名语录,因此在这个任务上得分较低。IFEval 中的指令往往更难遵循(因为每个实例都涉及遵守生成文本的几个约束)——迄今为止最好的结果往往由 LLaMA2 13B Chat 和 Mistral 7B Instruct 产生。
摘要
在摘要方面,我们考虑两种类型的指标:与黄金摘要的 N-gram 重叠(ROUGE1、ROUGE2 和 ROUGE-L)以及生成摘要与原始文档的忠实度(factKB、BERTScore-Precision)。在查看基于 ROUGE 的指标时,我们在 CNN/DM 上迄今为止考虑过的最佳模型之一是 GPT JT 6B。通过查看一些模型生成的结果(此处提供),我们可以看到该模型通过总结整个文档的第一句话,几乎表现出抽取性摘要的行为。其他模型,如 LLaMA2 13B,则不那么具有竞争力。初步查看模型输出,这种情况发生的原因是这些模型倾向于只生成单个标记——可能是由于上下文超过了最大上下文长度。
阅读理解
在 RACE 上,迄今为止最准确的结果是由基于 Mistral 7B 和 LLaMA2 的模型生成的。在 SQuADv2 中,有两种设置:可回答 (HasAns) 和不可回答 (NoAns) 问题。mGPT
是迄今为止在识别不可回答问题任务中表现最好的模型,而 Starling-LM 7B alpha 是 HasAns 设置中表现最好的模型。
幻觉检测
我们考虑两种幻觉检测任务,即 SelfCheckGPT(检查模型是否生成自洽的答案)和 HaluEval(检查模型是否能够根据给定知识片段识别问答、对话和摘要任务中的忠实性幻觉)。对于 SelfCheckGPT,迄今为止得分最高的模型是 Mistral 7B OpenOrca;发生这种情况的一个原因是该模型总是生成空答案,这些答案( trivially )自洽。类似地,DiscoResearch/mixtral-7b-8expert
产生非常相似的生成,从而获得较高的自洽性结果。对于 HaluEval QA/Dialog/Summarisation,最佳结果由基于 Mistral 和 LLaMA2 的模型产生。
总结
幻觉排行榜是一项旨在解决 LLM 中幻觉挑战的开放式尝试。LLM 中的幻觉,无论是事实性错误还是忠实性错误,都可能严重影响 LLM 在实际应用中的可靠性和有用性。幻觉排行榜通过评估各种 LLM 在多个基准上的表现,旨在深入了解这些模型的泛化能力、局限性及其生成幻觉内容的倾向。
这项倡议旨在帮助研究人员和工程师识别最可靠的模型,并有可能推动 LLM 朝着更准确、更忠实的语言生成发展。幻觉排行榜是一个不断发展的项目,我们欢迎您的贡献(修复、新数据集和指标、计算资源、想法等)和反馈:如果您想与我们合作开展此项目,请记住联系我们!
引用
@article{hallucinations-leaderboard,
author = {Giwon Hong and
Aryo Pradipta Gema and
Rohit Saxena and
Xiaotang Du and
Ping Nie and
Yu Zhao and
Laura Perez{-}Beltrachini and
Max Ryabinin and
Xuanli He and
Cl{\'{e}}mentine Fourrier and
Pasquale Minervini},
title = {The Hallucinations Leaderboard - An Open Effort to Measure Hallucinations
in Large Language Models},
journal = {CoRR},
volume = {abs/2404.05904},
year = {2024},
url = {https://doi.org/10.48550/arXiv.2404.05904},
doi = {10.48550/ARXIV.2404.05904},
eprinttype = {arXiv},
eprint = {2404.05904},
timestamp = {Wed, 15 May 2024 08:47:08 +0200},
biburl = {https://dblp.org/rec/journals/corr/abs-2404-05904.bib},
bibsource = {dblp computer science bibliography, https://dblp.org}
}