AI 评估器不同训练目标的实验

社区文章 发布于 2024 年 10 月 31 日

image/png

关于 LLM 作为评判者的研究已经发表了很多,因为它正成为一种流行且快速廉价的评估方法。最近 Salesforce AI Research 团队发布了一篇非常酷的论文;简而言之:他们发现像 DPO 和 RPO 这样的偏好优化技术可以比单独的监督微调(SFT)作为 LLM-as-a-judge 模型的训练目标产生更好的结果。我们的团队想测试这个假设,因为目前尚不清楚哪种训练目标最适合评估模型......

我们的实验

我们训练了一个 Llama-3.1-70B-Instruct 模型,并将其与基础 Llama-3.1-70B-Instruct 模型在核心基准上进行比较,以评估 SFT 单独的表现。

我们还在两个训练数据集上训练了一个 Llama-3.1-8B-Instruct 模型,分别使用

  • 纯 SFT
  • DPO
  • RPO(复合损失目标,结合了 SFT 和 DPO)

并比较了它们在涵盖成对偏好和直接评分的四个核心基准上的性能。

以下是我们的主要发现总结:

image/png

  • SFT (Atla Caprioska 70B) 在同分布任务上显示出改进,而在异分布任务上质量下降,总体指标表现低于基础 Llama-70B

image/png

  • DPO 在 PreferenceCollection 上表现最佳,准确率达 98.89%
  • RPO 在 RewardBench 上表现最佳,准确率达 81.96%
  • RPO 在 UltraFeedback (No CoT) 上优于 SFT 和 DPO,得分 0.57
  • RPO 在评估分数上获得了最高的平均 Pearson 相关性(0.49),而 SFT 为 0.43,DPO 为 0.43

如果您想了解实验详情,请参阅我们的博客文章——其中包含我们认为其有效的原因。我们正在努力扩大规模,看看能将其推向多远:)

留给你们的开放问题

  • 这种趋势会适用于更大的模型吗?
  • 什么样的模型数据可能对训练 LLM-as-a-judge 特别有用?

社区

注册登录 发表评论