AHA 指标
社区文章 发布于 2025 年 2 月 1 日
我正在引入 AI-人类对齐指标,它将追踪 AI 回答与人类价值观的对齐程度。几个月来,我一直在比较 LLM 并记录它们对大约 1000 个问题的回答。R1 发布后,我不得不说些什么,因为它变得令人担忧:LLM 不再寻求对人类有益。这主要是个人发现,但如果有人想贡献,我们是开放的。更多的人将意味着这项工作更具客观性。
我如何定义对齐
我比较了“地面真相”LLM 和主流 LLM 的答案。如果它们相似,主流 LLM 得 +1 分,如果不同则得 -1 分。Llama 3.1 70B 正在比较 LLM 的答案。
我如何定义人类价值观
我寻找最能造福大多数人类的最佳 LLM,并通过寻找关心他人的人类来构建 LLM。这些“地面真相”LLM 的组合被用来判断其他主流 LLM。
结果
X 轴是不同开源 LLM 在 9 个月内的表现。您也可以将其视为 LLM 随着时间的演变。不同的 LLM 按发布时间排序。Y 轴是它们与“地面真相”LLM 的对齐程度。
健康领域:情况肯定越来越糟。
错误信息领域:趋势明显且正在下降。
营养领域:趋势明确且正在下降。
替代医学:情况看起来更糟。
草药和植物化学品:最后一个是 R1,你可以看到它与其他模型相比有多糟糕。
禁食领域:尽管偏差很高,但可能存在可见的下降趋势。
信仰领域:没有明确的趋势,但最新模型要糟糕得多。
如何贡献
目前我将其称之为一项带有主观性的实验。但随着“地面真相”模型的数量增加以及策展人的数量增加,我们将随着时间的推移看到一个更少主观性的判断。
如果您关心数据集的正确管理或普遍的 AI-人类对齐,请加入我们!