Lighteval 文档
使用 SGLang 作为后端
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
使用 SGLang 作为后端
Lighteval 允许您使用 sglang
作为后端,从而实现极大的速度提升。要使用,只需更改 model_args
以反映您想要传递给 sglang 的参数。
lighteval sglang \
"pretrained=HuggingFaceH4/zephyr-7b-beta,dtype=float16" \
"leaderboard|truthfulqa:mc|0|0"
sglang
能够使用数据并行和张量并行在多个 GPU 之间分配模型。您可以通过在 model_args
中设置来选择并行方法。
例如,如果您有 4 个 GPU,您可以将其拆分,使用 tp_size
lighteval sglang \
"pretrained=HuggingFaceH4/zephyr-7b-beta,dtype=float16,tp_size=4" \
"leaderboard|truthfulqa:mc|0|0"
或者,如果您的模型适合单个 GPU,您可以使用 dp_size
来加速评估
lighteval sglang \
"pretrained=HuggingFaceH4/zephyr-7b-beta,dtype=float16,dp_size=4" \
"leaderboard|truthfulqa:mc|0|0"
使用配置文件
对于更高级的配置,您可以为模型使用配置文件。下面显示了一个配置文件示例,可以在 examples/model_configs/sglang_model_config.yaml
中找到。
lighteval sglang \
"examples/model_configs/sglang_model_config.yaml" \
"leaderboard|truthfulqa:mc|0|0"
model: # Model specific parameters
base_params:
model_args: "pretrained=HuggingFaceTB/SmolLM-1.7B,dtype=float16,chunked_prefill_size=4096,mem_fraction_static=0.9" # Model args that you would pass in the command line
generation: # Generation specific parameters
temperature: 0.3
repetition_penalty: 1.0
frequency_penalty: 0.0
presence_penalty: 0.0
top_k: -1
min_p: 0.0
top_p: 0.9
max_new_tokens: 256
stop_tokens: ["<EOS>", "<PAD>"]
在出现 OOM 问题的情况下,您可能需要减小模型的上下文大小,并减小 mem_fraction_static
和 chunked_prefill_size
参数。