Lighteval - Hugging Face 文档

Lighteval

🤗 Lighteval 是您的一体化工具包，用于在多个后端轻松评估大语言模型 (LLM)——无论是 transformers、tgi、推理提供者、vllm 还是 nanotron。通过保存和探索详细的、逐样本的结果，深入了解您的模型性能，以进行调试并查看您的模型表现如何。

定制化触手可及：让您能够轻松创建新任务和指标以满足您的需求，或浏览我们所有现有的任务和指标。

在 Hugging Face Hub、S3 或本地无缝地进行实验、基准测试和存储结果。