AI 评估器不同训练目标的实验
社区文章 发布于 2024 年 10 月 31 日

关于 LLM 作为评判者的研究已经发表了很多,因为它正成为一种流行且快速廉价的评估方法。最近 Salesforce AI Research 团队发布了一篇非常酷的论文;简而言之:他们发现像 DPO 和 RPO 这样的偏好优化技术可以比单独的监督微调(SFT)作为 LLM-as-a-judge 模型的训练目标产生更好的结果。我们的团队想测试这个假设,因为目前尚不清楚哪种训练目标最适合评估模型......
我们的实验
我们训练了一个 Llama-3.1-70B-Instruct 模型,并将其与基础 Llama-3.1-70B-Instruct 模型在核心基准上进行比较,以评估 SFT 单独的表现。
我们还在两个训练数据集上训练了一个 Llama-3.1-8B-Instruct 模型,分别使用
- 纯 SFT
- DPO
- RPO(复合损失目标,结合了 SFT 和 DPO)
并比较了它们在涵盖成对偏好和直接评分的四个核心基准上的性能。
以下是我们的主要发现总结:
- SFT (Atla Caprioska 70B) 在同分布任务上显示出改进,而在异分布任务上质量下降,总体指标表现低于基础 Llama-70B
- DPO 在 PreferenceCollection 上表现最佳,准确率达 98.89%
- RPO 在 RewardBench 上表现最佳,准确率达 81.96%
- RPO 在 UltraFeedback (No CoT) 上优于 SFT 和 DPO,得分 0.57
- RPO 在评估分数上获得了最高的平均 Pearson 相关性(0.49),而 SFT 为 0.43,DPO 为 0.43
如果您想了解实验详情,请参阅我们的博客文章——其中包含我们认为其有效的原因。我们正在努力扩大规模,看看能将其推向多远:)
留给你们的开放问题
- 这种趋势会适用于更大的模型吗?
- 什么样的模型数据可能对训练 LLM-as-a-judge 特别有用?