如何搭建你自己的 Hugging Face 排行榜:一个使用 Vectara 幻觉排行榜的端到端示例

发布日期:2024年1月12日
在 GitHub 上更新

Hugging Face 的 Open LLM 排行榜(最初由 Ed Beeching 和 Lewis Tunstall 创建,并由 Nathan Habib 和 Clémentine Fourrier 维护)以跟踪开源 LLM 的性能而闻名,它比较了 LLM 在各种任务中的表现,例如 TruthfulQAHellaSwag

这对开源社区具有巨大的价值,因为它为从业者提供了一种跟踪最佳开源模型的方法。

2023年末,Vectara 推出了Hughes 幻觉评估模型(HHEM),这是一个开源模型,用于衡量 LLM 产生幻觉(生成无意义或与提供的源内容不符的文本)的程度。该模型涵盖了 Llama 2 或 Mistral 7B 等开源模型,以及 OpenAI 的 GPT-4、Anthropic Claude 或 Google 的 Gemini 等商业模型,它突出了当前模型在产生幻觉的可能性方面存在的显著差异。

随着我们不断向 HHEM 添加新模型,我们一直在寻找一个开源解决方案来管理和更新 HHEM 排行榜。

最近,Hugging Face 排行榜团队发布了排行榜模板(此处此处)。这些是 Open LLM 排行榜本身的轻量级版本,它们都是开源的,并且比原始代码更易于使用。

今天,我们很高兴地宣布发布 新 HHEM 排行榜,它由 HF 排行榜模板 提供支持。

Vectara 的 Hughes 幻觉评估模型 (HHEM)

Hughes 幻觉评估模型 (HHEM) 排行榜致力于评估大型语言模型 (LLM)(例如 GPT-4、Google Gemini 或 Meta 的 Llama 2)生成的文档摘要中幻觉的频率。要使用它,您可以遵循此处的说明。

通过开源此模型,我们 Vectara 旨在使 LLM 幻觉的评估民主化,提高人们对 LLM 在产生幻觉倾向方面存在的性能差异的认识。

HHEM 的初始发布是一个Huggingface 模型以及一个Github 存储库,但我们很快意识到我们需要一种机制来评估新类型的模型。通过使用 HF 排行榜代码模板,我们能够快速构建一个新的排行榜,该排行榜允许动态更新,我们鼓励 LLM 社区提交新的相关模型进行 HHEM 评估。


对我们 Vectara 而言,值得一提的是,HHEM 是以我们的同事 Simon Hughes 的名字命名的,他于 2023 年 11 月因自然原因意外去世;为了纪念他在该领域的持久遗产,我们决定以他的名字命名。

使用 LLM 排行榜模板设置 HHEM

为了设置 Vectara HHEM 排行榜,我们必须遵循几个步骤,根据我们的需求调整 HF 排行榜模板代码。

  1. 在将空间仓库克隆到我们自己的组织后,我们创建了两个相关的数据集:“requests”和“results”;这些数据集分别维护用户提交的新 LLM 评估请求和这些评估的结果。
  2. 我们使用初始发布中的现有结果填充了结果数据集,并更新了“关于”和“引用”部分。

对于一个简单的排行榜,如果评估结果由您的后端推送到结果数据集,那么您只需要这些!

由于我们的评估更为复杂,我们随后定制了源代码以适应 HHEM 排行榜的需求——具体细节如下:

  1. leaderboard/src/backend/model_operations.py:该文件包含两个主要类 - SummaryGeneratorEvaluationModel。 a. SummaryGenerator 根据 HHEM 私有评估数据集生成摘要并计算回答率和平均摘要长度等指标。 b. EvaluationModel 加载我们专有的 Hughes 幻觉评估模型 (HHEM) 来评估这些摘要,从而得出事实一致性率和幻觉率等指标。
  2. leaderboard/src/backend/evaluate_model.py:定义了 Evaluator 类,该类利用 SummaryGeneratorEvaluationModel 来计算并以 JSON 格式返回结果。
  3. leaderboard/src/backend/run_eval_suite.py:包含一个 run_evaluation 函数,该函数利用 Evaluator 获取评估结果并将其上传到上述 results 数据集,从而使其显示在排行榜中。
  4. leaderboard/main_backend.py:管理待处理的评估请求并使用上述类和函数执行自动评估。它还包括一个选项,供用户复制我们的评估结果。

最终的源代码可以在我们的 HHEM 排行榜仓库文件选项卡中找到。通过所有这些更改,我们现在已准备好评估管道,并且可以轻松地作为 Huggingface Space 进行部署。

总结

HHEM 是一种新颖的分类模型,可用于评估 LLM 产生幻觉的程度。我们使用 Hugging Face 排行榜模板为任何排行榜的常见需求提供了急需的支持:管理新模型评估请求的提交以及随着新结果出现而更新排行榜的能力。

非常感谢 Hugging Face 团队将这个有价值的框架开源,并支持 Vectara 团队的实施。我们预计其他社区成员将重用此代码,他们旨在发布其他类型的 LLM 排行榜。

如果您想通过新模型为 HHEM 做出贡献,请在排行榜上提交——我们非常感谢任何关于评估新模型的建议。

如果您对 Hugging Face LLM 前端或 Vectara 有任何疑问,请随时在 VectaraHuggingface 论坛中提出。

社区

注册登录评论