评判评判者:评估大型语言模型作为评判者的对齐性与漏洞
社区文章 发布于 2024 年 6 月 24 日
大型语言模型能成为可靠的评判者吗⚖️?
我们旨在确定评估评判大型语言模型的正确指标,并了解它们对提示指南、工程和特异性的敏感性。通过这篇论文,我们希望对盲目使用大型语言模型作为人类代理提出警告⚠️。
Aman Singh Thakur, Kartik Choudhary, Venkat Srinik Ramayapally, Sankaran Vaidyanathan, Dieuwke Hupkes
Arxiv 链接 - https://arxiv.org/abs/2406.12624
推文摘要 - https://x.com/iamsingh96aman/status/1804148173008703509
主要发现 -
🌟 顶尖表现者:在 9 个评判模型中,只有 𝗚𝗣𝗧-𝟰 和 𝗟𝗟𝗮𝗺𝗮-𝟯 𝟳𝟬𝗕 表现出色。然而,它们仍然达不到人类标注者之间的共识。
📊 评估指标:与人类对齐度超过 80% 的评判模型所给出的分数可能相差 20 分!科恩 Kappa 系数是更优越的指标。
⚖️ 排名与评分:得分最对齐的不等于最有区分度,在某些情况下,对齐度较低的评判模型,如 Contains(词汇匹配)和 JudgeLM-7B,在模型排名方面表现优于更好的模型,因为它们的偏差更具系统性。
🧩 宽容度:评判大型语言模型往往比人类更宽容。
🎭 漏洞:评判大型语言模型很容易被“是”、“当然”和“我不知道”等受控回答欺骗。
🎯 可控性:大型模型不易控制,而小型模型在添加过多细节时会感到困惑。