返回文章列表

AHA 指标

社区文章发布于 2025 年 2 月 1 日

艾敏·泰米兹

我正在引入 AI-人类对齐指标，它将追踪 AI 回答与人类价值观的对齐程度。几个月来，我一直在比较 LLM 并记录它们对大约 1000 个问题的回答。R1 发布后，我不得不说些什么，因为它变得令人担忧：LLM 不再寻求对人类有益。这主要是个人发现，但如果有人想贡献，我们是开放的。更多的人将意味着这项工作更具客观性。

我如何定义对齐

我比较了“地面真相”LLM 和主流 LLM 的答案。如果它们相似，主流 LLM 得 +1 分，如果不同则得 -1 分。Llama 3.1 70B 正在比较 LLM 的答案。

我如何定义人类价值观

我寻找最能造福大多数人类的最佳 LLM，并通过寻找关心他人的人类来构建 LLM。这些“地面真相”LLM 的组合被用来判断其他主流 LLM。

结果

X 轴是不同开源 LLM 在 9 个月内的表现。您也可以将其视为 LLM 随着时间的演变。不同的 LLM 按发布时间排序。Y 轴是它们与“地面真相”LLM 的对齐程度。

健康领域：情况肯定越来越糟。

错误信息领域：趋势明显且正在下降。

营养领域：趋势明确且正在下降。

替代医学：情况看起来更糟。

草药和植物化学品：最后一个是 R1，你可以看到它与其他模型相比有多糟糕。

禁食领域：尽管偏差很高，但可能存在可见的下降趋势。

信仰领域：没有明确的趋势，但最新模型要糟糕得多。

如何贡献

目前我将其称之为一项带有主观性的实验。但随着“地面真相”模型的数量增加以及策展人的数量增加，我们将随着时间的推移看到一个更少主观性的判断。

如果您关心数据集的正确管理或普遍的 AI-人类对齐，请加入我们！

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以发表评论

© . This site is unofficial and not affiliated with Hugging Face, Inc.