Lighteval 文档
使用 SGLang 作为后端
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
使用 SGLang 作为后端
Lighteval 允许您使用 sglang
作为后端,从而极大地提高速度。要使用它,只需更改 model_args
以反映您想要传递给 sglang 的参数。
lighteval sglang \
"model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16" \
"leaderboard|truthfulqa:mc|0|0"
sglang
能够使用数据并行和张量并行将模型分布在多个 GPU 上。您可以在 model_args
中设置来选择并行方法。
例如,如果您有 4 个 GPU,您可以使用 tp_size
将其拆分
lighteval sglang \
"model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16,tp_size=4" \
"leaderboard|truthfulqa:mc|0|0"
或者,如果您的模型适合单个 GPU,您可以使用 dp_size
来加速评估
lighteval sglang \
"model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16,dp_size=4" \
"leaderboard|truthfulqa:mc|0|0"
使用配置文件
对于更高级的配置,您可以使用模型的配置文件。配置文件的示例显示如下,可在 examples/model_configs/sglang_model_config.yaml
中找到。
lighteval sglang \
"examples/model_configs/sglang_model_config.yaml" \
"leaderboard|truthfulqa:mc|0|0"
sglang 的配置文件文档可以在这里找到。
model_parameters:
model_name: "HuggingFaceTB/SmolLM-1.7B-Instruct"
dtype: "auto"
tp_size: 1
dp_size: 1
context_length: null
random_seed: 1
trust_remote_code: False
use_chat_template: False
device: "cuda"
skip_tokenizer_init: False
kv_cache_dtype: "auto"
add_special_tokens: True
pairwise_tokenization: False
sampling_backend: null
attention_backend: null
mem_fraction_static: 0.8
chunked_prefill_size: 4096
generation_parameters:
max_new_tokens: 1024
min_new_tokens: 0
temperature: 1.0
top_k: 50
min_p: 0.0
top_p: 1.0
presence_penalty: 0.0
repetition_penalty: 1.0
frequency_penalty: 0.0
如果出现 OOM(内存不足)问题,您可能需要减小模型的上下文大小,并减小 mem_fraction_static
和 chunked_prefill_size
参数。