AI 评估器不同训练目标的实验

社区文章发布于 2024 年 10 月 31 日

关于 LLM 作为评判者的研究已经发表了很多，因为它正成为一种流行且快速廉价的评估方法。最近 Salesforce AI Research 团队发布了一篇非常酷的论文；简而言之：他们发现像 DPO 和 RPO 这样的偏好优化技术可以比单独的监督微调（SFT）作为 LLM-as-a-judge 模型的训练目标产生更好的结果。我们的团队想测试这个假设，因为目前尚不清楚哪种训练目标最适合评估模型......

我们的实验

我们训练了一个 Llama-3.1-70B-Instruct 模型，并将其与基础 Llama-3.1-70B-Instruct 模型在核心基准上进行比较，以评估 SFT 单独的表现。

我们还在两个训练数据集上训练了一个 Llama-3.1-8B-Instruct 模型，分别使用

纯 SFT
DPO
RPO（复合损失目标，结合了 SFT 和 DPO）

并比较了它们在涵盖成对偏好和直接评分的四个核心基准上的性能。

以下是我们的主要发现总结：

SFT (Atla Caprioska 70B) 在同分布任务上显示出改进，而在异分布任务上质量下降，总体指标表现低于基础 Llama-70B

DPO 在 PreferenceCollection 上表现最佳，准确率达 98.89%
RPO 在 RewardBench 上表现最佳，准确率达 81.96%
RPO 在 UltraFeedback (No CoT) 上优于 SFT 和 DPO，得分 0.57
RPO 在评估分数上获得了最高的平均 Pearson 相关性（0.49），而 SFT 为 0.43，DPO 为 0.43

如果您想了解实验详情，请参阅我们的博客文章——其中包含我们认为其有效的原因。我们正在努力扩大规模，看看能将其推向多远:)

留给你们的开放问题

这种趋势会适用于更大的模型吗？
什么样的模型数据可能对训练 LLM-as-a-judge 特别有用？

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论