法官竞技场:基准测试LLM作为评估器
LLM-as-a-Judge 已成为评估LLM应用程序自然语言输出的流行方法,但我们如何知道哪些模型是最好的法官呢?
我们很高兴推出法官竞技场——一个让任何人都能轻松并排比较模型作为法官的平台。只需在测试样本上运行法官,然后投票选出您最认同的法官。结果将整理成排行榜,显示出最好的法官。
法官竞技场
众包、随机的“对战”已被证明是基准测试LLM的有效方法。LMSys的Chatbot Arena收集了超过200万张投票,被高度认可为识别最佳语言模型的现场测试。由于LLM评估旨在捕捉人类偏好,因此直接的人类反馈也是确定哪些AI法官最有用的关键。
工作原理
- 选择您的评估样本
- 让系统随机生成一个👩用户输入/🤖AI响应对
- 或输入您自己的自定义样本
- 两个LLM法官将
- 给响应打分
- 提供他们打分的理由
审查两位法官的评估,并投票选出最符合您判断的那一位
(我们建议先审查分数,再比较评语)
每次投票后,您可以
- 重新生成法官:获取同一样本的新评估
- 开始🎲新一轮:随机生成一个新的样本进行评估
- 或者,输入一个新的自定义样本进行评估
为了避免偏见和潜在的滥用,模型名称只在投票提交后才会显示。
已选模型
法官竞技场侧重于LLM-as-a-Judge方法,因此只包括生成模型(不包括仅输出分数的分类器模型)。我们对AI法官的筛选标准如下:
- 模型应具备有效评分和评论其他模型输出的能力。
- 模型应能够根据不同评分格式和不同标准进行评估。
我们为排行榜选择了18个最先进的LLM。虽然许多是公开权重的开源模型,我们也包含了专有API模型,以实现开源和闭源方法之间的直接比较。
- OpenAI (GPT-4o, GPT-4 Turbo, GPT-3.5 Turbo)
- Anthropic (Claude 3.5 Sonnet / Haiku, Claude 3 Opus / Sonnet / Haiku)
- Meta (Llama 3.1 Instruct Turbo 405B / 70B / 8B)
- Alibaba (Qwen 2.5 Instruct Turbo 7B / 72B, Qwen 2 Instruct 72B)
- Google (Gemma 2 9B / 27B)
- Mistral (Instruct v0.3 7B, Instruct v0.1 7B)
目前的列表代表了AI评估管道中最常用的模型。如果我们的排行榜被证明有用,我们期待添加更多模型。
排行榜
从法官竞技场收集到的投票将汇总并显示在专门的公共排行榜上。我们为每个模型计算Elo分数,并将每小时更新排行榜。
早期洞察
这些都只是非常早期的结果,但我们目前观察到的是:
- 专有模型和开源模型之间表现优异者并存:GPT-4 Turbo 仅以微弱优势领先,但 Llama 和 Qwen 模型极具竞争力,超越了大多数专有模型。
- 小型模型表现出色: Qwen 2.5 7B 和 Llama 3.1 8B 表现异常出色,与大型模型竞争。随着我们收集更多数据,我们希望能更好地理解模型规模与判断能力之间的关系。
- 对新兴研究的初步经验支持:LLM-as-a-Judge 文献表明 Llama 模型非常适合作为基础模型,在评估基准测试中展现出强大的开箱即用性能。包括 Lynx、Auto-J 和 SFR-LLaMA-3.1-Judge 在内的几种方法都选择以 Llama 模型作为起点,然后在进行评估能力方面的后训练。我们的初步结果与这一趋势一致,Llama 3.1 70B 和 405B 分别位列第二和第三。
随着排行榜在未来几周的形成,我们期待在我们的博客上分享更多结果分析。
如何贡献
我们希望法官竞技场能成为社区的有用资源。通过为这个排行榜贡献力量,您将帮助开发者确定在他们的评估管道中使用哪些模型。我们致力于在未来几个月内分享20%的匿名投票数据,希望能帮助开发者、研究人员和用户利用我们的发现来构建更一致的评估器。
我们很乐意听取您的反馈!对于一般功能请求或提交/建议新模型添加到竞技场,请在社区选项卡中开启讨论,或在Discord上与我们交流。如果您有任何问题或建议,请随时通过X/Twitter给我们发消息。
Atla目前自掏腰包资助此项目。我们正在寻找API积分(无附加条件)来支持这项社区工作——如果您有兴趣合作,请通过support@atla-ai.com联系我们🤗
鸣谢
感谢所有帮助测试此竞技场的人员,并向LMSYS团队提供灵感致敬。特别感谢 Clémentine Fourrier 和 Hugging Face 团队的付出!