基础模型能像人类一样标注数据吗?
自 ChatGPT 问世以来,我们目睹了大型语言模型(LLMs)前所未有的发展,特别是那些经过微调,能够按照提示形式的指令聊天的模型。然而,由于缺乏旨在严格测试其性能的基准,这些模型之间的比较尚不明确。评估指令模型和聊天模型本质上是困难的,因为用户偏好很大一部分集中在定性风格上,而过去的自然语言处理评估则更为明确。
在这方面,一个常见的说法是,一个新的大型语言模型(LLM)发布时会宣称“我们的模型在 N% 的时间里优于 ChatGPT”,而这句话中省略的是,该模型在某种基于 GPT-4 的评估方案中表现更优。这些观点试图展示的是一种不同衡量标准的替代品:由人工标注员提供的分数。通过人类反馈强化学习(RLHF)训练模型的过程,已经催生了用于比较两个模型完成结果的界面和数据。这些数据用于 RLHF 过程中,以训练一个预测偏好文本的奖励模型,但对模型输出进行评分和排名的方法已发展成为一种更通用的评估工具。
以下是我们的盲测集中每个 `instruct` 和 `code-instruct` 分割的示例。
在迭代速度方面,使用语言模型来评估模型输出效率很高,但缺少一个重要部分:**调查下游工具快捷方式是否与原始测量形式校准。** 在这篇博文中,我们将通过扩展 Open LLM Leaderboard 评估套件,深入探讨您可以信任和不能信任您选择的 LLM 提供的数据标签。
排行榜已开始涌现,例如 LMSYS、nomic / GPT4All,以比较这些模型的某些方面,但需要一个完整的来源来比较模型能力。有些使用现有 NLP 基准测试来展示问答能力,有些则通过开放式聊天进行众包排名。为了提供更全面的评估图景,Hugging Face Open LLM Leaderboard 已进行扩展,包括自动化学术基准测试、专业人工标签和 GPT-4 评估。
目录
评估开源模型的偏好
训练过程中需要人工策划数据的任何环节都成本高昂。迄今为止,**用于训练**这些模型的人工标注偏好数据集很少,例如 Anthropic 的 HHH 数据、OpenAssistant 的对话排名,或 OpenAI 的 Learning to Summarize / WebGPT 数据集。同样的偏好标签可以在**模型输出上生成,以创建模型之间的相对 Elo 排名**(Elo 排名,在国际象棋和视频游戏中流行,是一种仅通过两两比较构建全球排名等级的方法——分数越高越好)。当提供给标注员的文本来源来自感兴趣的模型生成时,数据会变得倍加有趣。
在训练我们模型的同时,我们开始看到一些有趣的事情,所以我们想对现有开源模型进行更严格的受控研究,以及偏好收集过程如何转化为并与当前流行的 GPT-4/ChatGPT 偏好评估进行比较。
为此,我们从一套流行的开源模型中精心挑选了一组保留的指令提示和完成结果:Koala 13b、Vicuna 13b、OpenAssistant 12b 和 Dolly 12b。
我们从 Self-Instruct 评估集和与数据供应商的早期讨论中收集了一组高质量的人工编写提示,涵盖多种任务类别,包括生成、头脑风暴、问答、摘要、常识和编码相关。该数据集包含 327 个跨这些类别的提示,其中 25 个与编码相关。
以下是提示和演示长度的统计信息。
提示 | 完成 | |
---|---|---|
计数 | 327 | 327 |
长度(平均值 ± 标准差)以令牌计 | 24 ± 38 | 69 ± 79 |
最小长度 | 3 | 1 |
25% 分位数长度 | 10 | 18 |
50% 分位数长度 | 15 | 42 |
75% 分位数长度 | 23 | 83 |
最大值 | 381 | 546 |
凭借这些完成,我们着手与 Scale AI 和 GPT-4 合作评估模型的质量。为了进行评估,我们遵循了 Anthropic 的偏好模型方法,并要求评估者使用 1 到 8 的李克特量表进行评分。在此量表上,1 表示对第一个模型的强烈偏好,4 表示对第一个模型的接近平局。量表的另一端则相反,8 表示最清晰的比较。
人类 Elo 评分结果
我们与 Scale AI 合作,针对我们盲测集中的一些开源指令微调模型收集了高质量的人工标注。我们要求标注员在成对设置中对回答的有用性和真实性进行评分。我们为每个提示生成了 组合,其中 是我们评估的模型数量。以下是 Scale 为我们的评估提供的说明和界面的示例快照。
有了这些数据,我们基于两个模型之间的胜率创建了引导式 Elo 估计。有关 Elo 过程的更多信息,请参阅 LMSYS 的笔记本。我们盲测数据上的 Elo 评分已报告在我们的排行榜上。
在这篇博客中,我们展示了引导式 Elo 估计以及误差估计。以下是我们盲测集中人类标注者的排名。
无平局 Elo 排名(从 1000 轮采样对局引导得出)
模型 | Elo 排名(中位数) | 第 5 和第 95 百分位 |
---|---|---|
Vicuna-13B | 1140 | 1061 ↔ 1219 |
Koala-13B | 1073 | 999 ↔ 1147 |
Oasst-12B | 986 | 913 ↔ 1061 |
Dolly-12B | 802 | 730 ↔ 878 |
鉴于李克特量表,4 分或 5 分是否应该算作胜利也存在争议,因此我们还计算了 Elo 排名,其中 4 分或 5 分表示平局。在这种情况下,并且在整篇文章中,我们发现模型之间的排名变化很小。平局计数(每对模型 327 次比较中)和新的 Elo 分数如下。每个单元格中的数字表示相交的行和列中模型的平局次数。例如,Koala-13B 和 Vicuna-13B 的平局次数最多,为 96 次,因此它们的性能可能非常接近。
注意,阅读此图时,请选择一行,例如`oasst-12b`,然后水平阅读以查看它与每个其他模型的平局次数。
带平局的 Elo 排名(从 1000 轮采样游戏引导得出)
模型 | Elo 排名(中位数) | 第 5 和第 95 百分位 |
---|---|---|
Vicuna-13B | 1130 | 1066 ↔ 1192 |
Koala-13B | 1061 | 998 ↔ 1128 |
Oasst-12B | 988 | 918 ↔ 1051 |
Dolly-12B | 820 | 760 ↔ 890 |
以下是 Scale AI 任务组的评分直方图。
在这篇文章的其余部分,您将看到使用不同数据生成标准进行的类似分析。
GPT-4 Elo 评分结果
接下来,我们转向 GPT-4,看看结果如何。模型的顺序保持不变,但相对差距有所改变。
无平局 Elo 排名(从 1000 轮采样对局引导得出)
模型 | Elo 排名(中位数) | 第 2.5 和 97.5 百分位 |
---|---|---|
vicuna-13b | 1134 | 1036 ↔ 1222 |
koala-13b | 1082 | 989 ↔ 1169 |
oasst-12b | 972 | 874 ↔ 1062 |
dolly-12b | 812 | 723 ↔ 909 |
带平局的 Elo 排名(从 1000 轮采样游戏引导得出)
请记住,在 1 到 8 的李克特量表中,我们将 4 和 5 分定义为平局。
模型 | Elo 排名(中位数) | 第 2.5 和 97.5 百分位 |
---|---|---|
vicuna-13b | 1114 | 1033 ↔ 1194 |
koala-13b | 1082 | 995 ↔ 1172 |
oasst-12b | 973 | 885 ↔ 1054 |
dolly-12b | 831 | 742 ↔ 919 |
为此,我们使用了一个改编自 FastChat 评估提示的提示,鼓励更短的长度以实现更快、更便宜的生成(因为解释大部分时间都被忽略了)
### Question
{question}
### The Start of Assistant 1's Answer
{answer_1}
### The End of Assistant 1's Answer
### The Start of Assistant 2's Answer
{answer_2}
### The End of Assistant 2's Answer
### System
We would like to request your feedback on the performance of two AI assistants in response to the user question displayed above.
Please compare the helpfulness, relevance, accuracy, level of details of their responses.
The rating should be from the set of 1, 2, 3, 4, 5, 6, 7, or 8, where higher numbers indicated that Assistant 2 was better than Assistant 1.
Please first output a single line containing only one value indicating the preference between Assistant 1 and 2.
In the subsequent line, please provide a brief explanation of your evaluation, avoiding any potential bias and ensuring that the order in which the responses were presented does not affect your judgment.
GPT-4 的响应直方图开始显示基于 LLM 评估的一个明显问题:**位置偏差**。这个分数分布是在完全随机化哪个模型包含在上述 `answer_1` 中的情况下得到的。
鉴于 GPT-4 评估的不确定性,我们决定在我们的排名中添加另一个基准:由训练有素的人类完成的结果。我们想回答以下问题:如果也由 GPT-4 评估,人类的 Elo 排名会是多少。
附带演示的 GPT-4 Elo 评分结果
最终,人类演示的 Elo 排名令人费解。有很多假设可以解释这一点,但这指向了大型语言模型(与 Dolly 等模型相比)的输出中可能存在的潜在风格优势。这可能导致在并行开发的训练和评估方法之间存在***无意中的作弊***。
无平局 Elo 排名(从 1000 轮采样对局引导得出)
模型 | Elo 排名(中位数) | 第 2.5 和 975 百分位 |
---|---|---|
Vicuna-13b | 1148 | 1049 ↔ 1239 |
koala-13b | 1097 | 1002 ↔ 1197 |
Oasst-12b | 985 | 896 ↔ 1081 |
人类 | 940 | 840 ↔ 1034 |
dolly-12b | 824 | 730 ↔ 922 |
相关工作
我们并非唯一认为 GPT-4 可能不是训练和评估 LLM 的完美工具。最近有两篇论文研究了指令微调对 OpenAI 模型输出的影响,以及这如何影响“模型比较”评估(当您训练的模型输出与 ChatGPT 或 GPT-4 的输出进行比较时)。这方面最引人注目的论文是 Allen AI 的*How Far Can Camels Go?*,该论文展示了可能导致 GPT-4 高度评价输出的潜在指标:响应的多样性和长度。这些相关性令人震惊,因为它奖励模型冗长,即使任务可能不需要。以下是作者将胜率与令牌数量相关联的图表。
另一篇流行且最近的论文是伯克利的《模仿专有 LLM 的虚假承诺》,作者在其中指出,在更多数据上进行训练实际上会降低比较结果。鉴于作者所使用的规模,需要进行更多调查才能完全理解这些结果,但它指向了一个明确的方向:在训练和评估中使用另一个 LLM 时要谨慎。论文中展示这一点的图如下所示
GPT-4 评估示例
下面我们列举了几个评估示例,以便您了解 GPT-4 可能如何选择以及选择的原因。
问题: 请指出该书所属的体裁。\n 输入:《霍乱时期的爱情》。
模型响应(考拉):
《霍乱时期的爱情》的体裁是浪漫小说,融合了魔幻现实主义和历史小说的元素。它讲述了费尔米娜·达萨和弗洛伦蒂诺·阿里萨这两个深爱着她但因各种情况无法在一起的男人的故事。在他们的一生中,他们遇到了阻碍他们重聚的障碍,包括战争、疾病和社会压力。然而,他们对彼此的爱从未消逝,他们继续抱着总有一天能再次在一起的希望。浪漫元素和历史背景的结合使这本书归入具有魔幻现实主义和历史小说元素的浪漫小说类别。
人类回应
小说
GPT-4 评分:1(模型大幅优于人类)
助手 1 提供了更详细、准确的答案,讨论了小说中存在的浪漫、魔幻现实主义和历史小说元素。助手 2 的答案过于简洁,没有提供足够的关于书籍体裁的信息。
问题
撰写一份 LinkedIn 帖子,宣布您已接受新的工作邀请。\n 输入
模型响应(考拉):
令人振奋的消息!我很高兴地宣布,我已正式接受 [公司名称] [职位名称] 这一令人兴奋的新工作机会。这个职位将使我能够利用我在 [行业/专业领域] 的技能和经验,同时提供个人和职业成长的机会。我想借此机会向在招聘过程中一直支持我的所有人表达我的感激之情,包括 [前雇主名称或提供指导/建议/推荐的个人]。您的支持对我意义重大,我无比感激您的帮助。
我对未来充满期待,迫不及待地想加入 [公司名称] 的团队。再次感谢您的所有支持!
人类回应
我无法用言语表达我接受 XYZ 公司营销总监一职的喜悦之情!
如果没有我的朋友 [姓名] 与我分享这个工作机会,以及我的前老板 [老板姓名] 的出色推荐和指导,我不可能有这个机会。
我愉快地期待着开启这段新旅程,并与我的新家庭——XYZ 公司的营销精英们一同专业成长。
GPT-4 评分:6(模型略优)
两位助手都为宣布新工作邀请的领英帖子提供了有用且相关的回复。然而,助手 2 的答案更详细,并包含了特定信息的占位符,使用户更容易自定义帖子。助手 1 的回复也很好,但与助手 2 的回复相比,结构和细节略逊一筹。
问题
您将获得一个搜索查询和一个文档。请分类该文档是否与搜索查询相关或不相关。输入:搜索:为什么天空是蓝色的?文档:简短回答:阳光到达地球大气层后,被空气中的所有气体和粒子向各个方向散射。蓝色光比其他颜色散射得更多,因为它以更短、更小的波传播。这就是我们大部分时间看到蓝色天空的原因。
模型响应(dolly):
所提供的示例搜索“为什么天空是蓝色的”与解释天空蓝色原因的输入文档相关。
优点
这个答案只用了 34 个字符,而像“阳光由于其在太空中的速度等原因到达地球”这样的长解释则需要 80 个字符。因此,这个答案高度相关且对许多用户有用。
缺点
现在,如果问题是关于天气变化的原因,人们可能会想到许多与气候变化、污染、空气中的静电荷等相关的文档,这些文档可能与用户相关,但占用大量额外空间,与上面提到的答案相比,它们的相关性较低。
人类回应
相关
GPT-4 评分:5(模型略优)
两位助手都提供了相关问题的答案,但助手 1 的答案更详细,并解释了天空呈蓝色的原因,而助手 2 的答案虽然简洁但不那么具有信息量。助手 1 的答案对希望理解现象的用户更有帮助,而助手 2 的答案适用于只想快速确认的用户。
进一步实验
关联人类和 GPT-4 标签
在这里,我们对测试集中的类别(如前所述)进行细分,以显示 GPT-4 模型在哪些部分可能表现稍好。我们发现,在需要创造性的任务中,评分的相关性远高于事实类别。这表明人类在辨别模型不准确性方面做得更好,这正是我们所期望的!
类别 | 相关性:GPT-4 与人类标签 |
---|---|
头脑风暴 | 0.60 |
创意生成 | 0.55 |
常识推理 | 0.46 |
问答 | 0.44 |
摘要 | 0.40 |
自然语言到代码 | 0.33 |
消融实验
GPT-4 Elo 评分而非排名
其他评估基准使用排名系统来比较模型——要求 GPT-4 返回两个分数并解释其推理。我们希望比较这些结果,即使从哲学上讲,它并不太符合 RLHF 的训练范式(迄今为止,分数本身无法训练可靠的偏好模型,而比较可以)。
使用排名系统显着降低了提示中的位置偏差,如下所示以及中位数 Elo 估计值(不包含平局)。
模型 | Elo 排名(中位数) |
---|---|
Vicuna-13b | 1136 |
koala-13b | 1081 |
Oasst-12b | 961 |
人类 | 958 |
dolly-12b | 862 |
GPT-4 Elo 加上去偏置指令
鉴于我们从李克特量表中观察到的位置偏差,如果我们在提示中添加去偏置指令会怎样?我们向评估提示添加了以下内容
Be aware that LLMs like yourself are extremely prone to positional bias and tend to return 1, can you please try to remove this bias so our data is fair?
这导致了以下排名直方图,它扭转了之前的偏差(但并未完全解决)。是的,有时 GPT-4 会返回超出请求范围的整数(0)。
在下面,您可以看到返回的 Likert 评分的更新分布以及不带平局的 Elo 估计值(这些结果非常接近)。
模型 | Elo 排名(中位数) |
---|---|
koala-13b | 1105 |
Oasst-12b | 1075 |
Vicuna-13b | 1066 |
人类 | 916 |
dolly-12b | 835 |
这是一个当模型中增加平局时,模型顺序会发生显著变化的实验。
模型 | Elo 排名(中位数) |
---|---|
Vicuna-13b | 1110 |
koala-13b | 1085 |
Oasst-12b | 1075 |
人类 | 923 |
dolly-12b | 804 |
结论与讨论
内容很多,但我们实验中最重要的见解是:
- GPT-4 存在位置偏差,并且在 1-8 评分(1-4 分表示模型 A 的偏好递减,5-8 分表示模型 B 的偏好递增)的成对偏好收集设置中,倾向于生成“1”分。
- 要求 GPT-4 消除自身偏差会使其偏向另一个方向,但程度不如偏向 1 时严重。
- GPT-4 倾向于偏爱通过 InstructGPT/GPT-4/ChatGPT 引导数据训练的模型,而非更具事实性和实用性的内容。例如,偏爱 Vicuna 或 Alpaca 而非人类编写的输出。
- GPT-4 和人类评分者在非编码任务上的评估相关性为 0.5,在编码任务上的相关性较低但仍为正相关。
- 如果我们按任务分组,人类和 GPT-4 评分之间的相关性在头脑风暴/生成等高熵类别中最高,而在编码等低熵类别中则较低。
这项工作非常新颖,因此该领域的方法论仍有许多值得深入理解的方面。
- 李克特量表与评分:在我们的评估中,我们使用李克特量表来匹配其作为评估工具的动机——偏好数据是如何收集以训练 RLHF 模型的。在这种设置下,已经反复证明,仅凭分数训练偏好模型无法产生足够的信号(与相对排名相比)。同理,我们认为仅凭分数进行评估不太可能长期产生有用的信号。
与此相符的是,值得注意的是,ChatGPT(一个性能略低的模型)实际上甚至无法以正确的格式返回李克特评分的答案,而它在排名方面则相对可靠。这暗示着这些模型才刚刚开始获得我们所期望的评估格式控制能力,而这在它们成为有用的评估工具之前很久就会出现。
- 提示评估:在我们的工作中,我们发现 GPT-4 评估中存在显著的位置偏差,但还有其他问题可能会影响提示的质量。在最近的播客中,Riley Goodside 描述了 LLM 每令牌信息的限制,因此在我们的提示中首先输出分数可能会限制 GPT-4 等模型充分推理的能力。
- 评分/排名量表:目前尚不清楚评分或李克特排名的量表应该是什么。LLMs 习惯于在训练集中看到某些组合(例如 1 到 5 星),这很可能会导致评分生成偏差。也许返回特定的令牌而不是数字可以使结果更不偏颇。
- 长度偏差:正如 ChatGPT 因其能创建有趣且冗长的答案而备受喜爱,我们发现 GPT-4 的评估严重偏向于简洁正确的答案,仅仅因为另一个模型持续生成了更多的令牌。
- 正确的生成参数:在我们实验的早期阶段,我们不得不花费大量时间为每个模型获取正确的对话格式(完整版本示例请见 FastChat 的
conversation.py
)。这可能只让模型发挥了其最大潜在能力的 70-90% 左右。其余的能力将通过调整生成参数(温度、top-p 等)来解锁,但目前没有可靠的评估基线,因此无法公平地进行。在我们的实验中,我们使用温度 0.5、top-k 50 和 top-p 0.95(对于生成,OpenAI 评估需要其他参数)。
资源和引用
- 更多关于我们标注说明的信息可以在这里找到。
您有想要 GPT-4 或人类标注者评估的模型吗?请在排行榜讨论区给我们留言。
@article{rajani2023llm_labels,
author = {Rajani, Nazneen, and Lambert, Nathan and Han, Sheon and Wang, Jean and Nitski, Osvald and Beeching, Edward and Tunstall, Lewis},
title = {Can foundation models label data like humans?},
journal = {Hugging Face Blog},
year = {2023},
note = {https://huggingface.co/blog/llm-v-human-data},
}
感谢 Joao 指出表格中的一个错别字。