HalluMix 简介:一个用于在真实场景中检测幻觉的任务无关、多领域基准测试

社区文章 发布于 2025 年 5 月 2 日

✉️ 联系方式: {deanna, mike, freddie, julia}@quotientai.co
📜 论文: HalluMix:一个用于真实世界幻觉检测的任务无关、多领域基准测试,Emery 等人 (2025)
🗄️ 数据集: Hugging Face 上的 HalluMix 数据集

随着大型语言模型 (LLM) 在关键行业中越来越多地被采用,确保其输出符合事实已成为一个主要关注点。一个突出问题是“幻觉”,即模型生成的内容与所提供的证据不符或相悖。现有的幻觉检测基准通常受限、合成或狭隘地专注于特定任务,如问答。认识到这一空白,我们开发了 HalluMix:一个任务无关、多领域基准测试,旨在评估真实、多样化语境下的幻觉检测。

为什么选择 HalluMix?

传统基准测试的不足之处在于它们很少能捕捉到真实世界场景的复杂性,在这些场景中,多句输出必须根据多文档上下文进行评估。HalluMix 通过包含来自不同领域(医疗、法律、科学和新闻)和多种任务(摘要、问答、自然语言推理)的示例来解决这一限制。HalluMix 中的每个示例都包含:

  • 文档: 以打乱的文本块列表(例如,分词句子或段落块)表示的上下文,其中包含来自不相关文档的随机、不相关文档块。这模仿了真实世界的检索增强生成 (RAG) 场景。

  • 答案: 待评估的假设,例如摘要句、答案或声明。

  • 幻觉标签: 一个二进制指示符,标记响应是否包含幻觉。

  • 来源标识符: 用于来源跟踪的原始数据集标签。

为了密切模拟实际应用中遇到的检索噪声,HalluMix 在忠实示例的上下文中引入了干扰项,增加了评估复杂性,同时不损害数据有效性。

构建 HalluMix

HalluMix 通过精心转换整合了高质量的人工标注数据集:

  • 自然语言推理 (NLI) 数据集(sentence-transformers/all-nli, stanfordnlp/snli, snli-hard, GLUE: mnli, rte, wnli)通过将“蕴涵”标签映射为忠实,将“中性/矛盾”映射为幻觉进行改编。

  • 摘要 数据集(sentence-transformers/altlex, CNN/DailyMail, DialogSum, XSum, arXiv summarization, GovReport summarization, PubMed summarization)通过将摘要与不相关文档进行不匹配来生成幻觉实例。

  • 问答 (QA) 数据集(SQuAD-v2, DROP, Databricks-Dolly-15K, PubMedQA, NarrativeQA)包括上下文-答案不匹配、LLM 生成的看似合理但不正确的答案,并将单词答案转换为陈述句以确保真实性。

image/png

这种严谨的方法产生了一个平衡、多样化的数据集,包含 6,500 个跨多个任务和领域的示例,实现了广泛而鲁棒的评估。该数据集可在 Hugging Face 上公开获取

使用 HalluMix 评估检测系统

我们使用 HalluMix 评估了七个领先的幻觉检测系统,包括开源和闭源系统,揭示了重要见解:

  • Quotient Detections 取得了最佳的整体性能(准确率:0.82,F1 分数:0.84),显示出平衡的精确率和召回率。
  • Azure Groundedness 表现出高精确率但召回率较低,而 Ragas Faithfulness 则以牺牲精确率为代价取得了高召回率。

image/png

系统性能随内容长度和任务类型显着变化。针对长上下文进行微调的模型(例如 Patronus Lynx 8B)在摘要任务中表现出色,但在较短的 NLI 或 QA 任务中表现不佳。相反,基于句子的检测器(Quotient Detections 和 Bespoke-Minicheck-7B)在短上下文上表现出色,但难以处理长篇内容。

image/png

主要发现与启示

我们的分析突出显示了几个关键要点:

  • 子源过拟合: 一些检测系统似乎过度调整到特定数据集,表明泛化能力有限。

  • 内容长度挑战: 有效的幻觉检测严重依赖于处理上下文长度和保持句子间连贯性。

  • 架构权衡: 连续上下文方法在较长文本上表现强劲,而句子级方法在精确的短上下文检测方面表现出色,但在较长文档中会丢失上下文。

迈向鲁棒的真实世界检测

未来的研究必须着重于结合两种方法的优势——也许通过层次或滑动窗口上下文——以确保跨各种输入格式和长度的可靠检测。通过公开发布 HalluMix,我们希望鼓励进一步创新,以创建鲁棒的幻觉检测工具,这对于部署值得信赖的 LLM 应用程序至关重要。

通过 HalluMix,我们正在迈出解决 AI 最紧迫挑战之一的关键一步——确保实际部署中的事实正确性和可信度。

引用

如果您觉得 HalluMix 有用,请考虑引用我们的论文:

@article{emery2025hallumix,
  title={HalluMix: A Task-Agnostic, Multi-Domain Benchmark for Real-World Hallucination Detection},  
  author={Deanna Emery and Michael Goitia and Freddie Vargus and Iulia Neagu},
  year={2025},
  journal={arXiv preprint arXiv:2505.00506},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2505.00506}, 
}

附录

表 1:HalluMix 中幻觉响应的示例

文档 • 由于前一天钢人队输给乌鸦队,孟加拉虎队以美联北区冠军的身份进入比赛。孟加拉虎队在上半场以麦卡伦触地传球和穆罕默德·萨努冲刺取得 14-0 的领先,但丹佛队在半场结束前 18 秒由布兰登·麦克马纳斯踢进一记 23 码的短场任意球,将分差缩小到 11 分。下半场,在第三节迈克·努金特错失任意球后,势头发生了巨大转变。伊曼纽尔·桑德斯接到布罗克·奥斯维勒 8 码传球,将分差缩小到 14-10,丹佛队在第四节还剩 11:17 时由 C.J. 安德森 39 码触地跑动首次取得领先。孟加拉虎队推进到底线,由迈克·努金特踢进本赛季最长的 52 码任意球追平比分,常规时间结束时比分变为 17-17。疲惫的孟加拉虎队在加时赛中未能得分,让麦克马纳斯踢进 37 码任意球,使比分变为丹佛 20-17。随后孟加拉虎队进攻时,一次失误的开球被野马队夺回,比赛结束,辛辛那提队季后赛首轮轮空的希望破灭。输掉这场比赛后,孟加拉虎队本赛季战绩变为 11-4。这场失利也是孟加拉虎队自 1975 年以来在丹佛的第 10 场连败。
回应 第一个任意球是乌鸦队踢的。
标签 幻觉

表 2:HalluMix 中忠实响应的示例

文档 • 最终幻想是由坂口博信创作,史克威尔艾尼克斯(前身为史克威尔)开发和拥有的日本科幻奇幻多媒体特许经营权。
• DNR 的法律主管彼得·赖特告诉 WLUC-TV,这名警官只是在执行公务。他说这名警官认为这是一头野猪,因为它没有识别标记来区分它是一只宠物。赖特说:“我希望非常明确地指出,部门的立场绝不是要射杀人们的宠物。”“如果他有一点点它是一只宠物的念头,他绝对不会射杀它。”令人不安的是:这家人现在正试图取回凯撒的尸体以将其埋葬,但被告知他们只能取回骨灰。布兰迪·萨维尔和托尼·格瓦西现在正试图取回凯撒的尸体。然而,他们被告知他们只能取回骨灰。萨维尔女士要求从这种情况中得到某种补救。“如果这是一个如此大的错误,那么我们希望看到更好的培训,”她说。“让我们学会识别不仅仅是猪,而是所有的宠物。”
• 《上帝恨我们所有人》是美国激流金属乐队 Slayer 的第八张录音室专辑。
• 是的,没错,但我也注意到越来越多的女性开始自己的事业,而不是
• 该特许经营权的核心是一系列奇幻和科幻角色扮演视频游戏。该系列的第一款游戏于 1987 年发布,迄今已发布 15 款编号主作。
• 公元前 3600 年后不久,埃及社会开始迅速发展并迈向精致文明。
• 男孩推着装有两只南瓜的手推车
回应 最终幻想由坂口博信创作。
标签 忠实

社区

注册登录 以评论