Evalverse:通过统一、用户友好的框架彻底改变大型语言模型评估
由 Upstage 引入
作者:YoungHoon Jeon, Jihoo Kim, Wonho Song, Dahyun Kim, Yunsu Kim, Yungi Kim, Chanjun Park
在快速发展的人工智能领域,评估大型语言模型 (LLM) 通常是一项复杂且分散的任务。Upstage 认识到需要更集成的评估方法,因此自豪地推出了 Evalverse,这是一个旨在简化和统一评估流程的创新库。该工具不仅有助于更系统地评估 LLM,还使最先进的评估技术可供更广泛的受众使用,确保人工智能的进步既具有包容性又全面。
什么是 Evalverse?
Evalverse 是一个集中式平台,旨在通过集成各种评估方法来简化 LLM 的评估。它将 lm-evaluation-harness 和 FastChat 等知名框架作为子模块。这种架构使 Evalverse 能够充当统一且可扩展的库,并简化了更新过程,确保该工具始终处于技术前沿。
Evalverse - 现已在 HuggingFace 上提供!
您可以在 Huggingface 上探索 Evalverse,深入了解专门为大型语言模型量身定制的评估宇宙。: 访问 evalverse-space
主要功能
通过子模块实现统一评估:Evalverse 利用 Git 子模块集成和管理外部评估框架,例如 lm-evaluation-harness 和 FastChat。这种方法允许直接添加新的子模块,从而支持更广泛的评估框架。此外,它还能无缝整合上游更改,使 Evalverse 在 LLM 技术动态环境中保持最新。
无需代码的评估请求:Evalverse 引入了无需代码的评估功能,可通过 Slack 交互进行访问。用户只需在与活跃的 Evalverse Slack 机器人进行私信或指定 Slack 频道中输入“Request!”即可发起请求。然后,机器人会引导用户从 Huggingface hub 中选择模型或指定本地模型目录,最终无需直接的代码交互即可执行评估过程。(*目前,我们仅支持 Slack,但我们计划未来扩展到其他平台。)
LLM 评估报告:Evalverse 通过提供无需代码格式的详细评估报告,增强了用户便利性。通过输入“Report!”,用户可以提示系统生成全面的评估报告。在用户选择特定模型和评估标准后,Evalverse 会根据存储的数据计算平均分数和排名。然后,这些结果将以富有洞察力的报告形式呈现,并附有性能表格和图形可视化,有助于深入了解模型性能。
Evalverse 架构
Evalverse 的架构经过精心设计,由多个关键组件构成——子模块、连接器、评估器、计算集群和数据库。这些元素高效协作,确保评估顺利有效进行。这个强大的系统旨在支持多种交互模式,既能通过 Slack 进行无代码评估,也能进行传统的基于代码的评估。这种双模式功能凸显了 Evalverse 致力于提供灵活性并满足用户多样化偏好的承诺,使先进技术易于访问且用户友好。
子模块。子模块作为评估引擎,负责 LLM 评估中的繁重工作。公共可用的 LLM 评估库可以作为子模块集成到 Evalverse 中。此组件使 Evalverse 具有可扩展性,从而确保库保持最新。
连接器。连接器负责将子模块与评估器连接起来。它包含来自各种外部库的评估脚本以及必要的参数。
评估器。评估器利用连接器中的评估脚本,在计算集群上执行请求的评估。评估器可以接收来自报告器的评估请求(报告器支持无代码评估方法),也可以直接接收来自最终用户的基于代码的评估请求。
计算集群。计算集群是执行 LLM 评估过程所需的硬件加速器集合。当评估器安排要运行的评估作业时,计算集群从数据库中获取所需的模型和数据文件。评估作业的结果将发送到数据库进行存储。
数据库。数据库存储评估过程中所需的模型文件和数据,以及评估结果。存储的评估结果由报告器用于为用户创建评估报告。
报告器。报告器处理用户发送的评估和报告请求,从而实现 LLM 评估的无代码方法。报告器将请求的评估作业发送给评估器,并从数据库中获取评估结果,然后通过 Slack 等外部通信平台发送给用户。通过这种方式,用户可以接收汇总评估结果的表格和图表。
许可证
Evalverse 完全免费开源,并采用 Apache 许可证 2.0 许可。欲了解更多详细信息,请访问我们的 Dataverse 文档页面:Evalverse 文档
实际应用与演示
演示视频有效展示了 Evalverse 的实用性,突出了用户友好的界面,该界面允许用户通过 Slack 与系统交互。此功能使用户能够轻松请求评估并接收全面的报告。无缝集成和易用性使 Evalverse 成为研究人员和实践者的宝贵资源,简化了复杂流程并提高了 LLM 评估的效率。此演示强调了 Evalverse 致力于提高人工智能领域可访问性和实用性的承诺。: Evalverse 演示
Evalverse 标志着 LLM 评估领域向前迈出了实质性的一步。它提供了一个统一、可访问且易于扩展的框架,巧妙地解决了评估工具碎片化和技术门槛高的问题。Evalverse 彻底改变 LLM 评估实践的潜力是巨大的,有望显著推动这些强大模型在各行各业的开发和部署。这一进步凸显了 Evalverse 致力于推动创新和拓宽尖端人工智能技术可访问性的承诺。欢迎使用 Evalverse 开启您自己的 LLM 实验!
引用
如果您想引用我们的 Evalverse 项目,请随意使用以下 bibtex!
@article{kim2024evalverse,
title={Evalverse: Unified and Accessible Library for Large Language Model Evaluation},
author={Kim, Jihoo and Song, Wonho and Kim, Dahyun and Kim, Yunsu and Kim, Yungi and Park, Chanjun},
journal={arXiv preprint arXiv:2404.00943},
year={2024}
}