Lighteval 文档

使用 SGLang 作为后端

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

使用 SGLang 作为后端

Lighteval 允许您使用 sglang 作为后端,从而极大地提高速度。要使用它,只需更改 model_args 以反映您想要传递给 sglang 的参数。

lighteval sglang \
    "model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16" \
    "leaderboard|truthfulqa:mc|0|0"

sglang 能够使用数据并行和张量并行将模型分布在多个 GPU 上。您可以在 model_args 中设置来选择并行方法。

例如,如果您有 4 个 GPU,您可以使用 tp_size 将其拆分

lighteval sglang \
    "model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16,tp_size=4" \
    "leaderboard|truthfulqa:mc|0|0"

或者,如果您的模型适合单个 GPU,您可以使用 dp_size 来加速评估

lighteval sglang \
    "model_name=HuggingFaceH4/zephyr-7b-beta,dtype=float16,dp_size=4" \
    "leaderboard|truthfulqa:mc|0|0"

使用配置文件

对于更高级的配置,您可以使用模型的配置文件。配置文件的示例显示如下,可在 examples/model_configs/sglang_model_config.yaml 中找到。

lighteval sglang \
    "examples/model_configs/sglang_model_config.yaml" \
    "leaderboard|truthfulqa:mc|0|0"

sglang 的配置文件文档可以在这里找到。

model_parameters:
    model_name: "HuggingFaceTB/SmolLM-1.7B-Instruct"
    dtype: "auto"
    tp_size: 1
    dp_size: 1
    context_length: null
    random_seed: 1
    trust_remote_code: False
    use_chat_template: False
    device: "cuda"
    skip_tokenizer_init: False
    kv_cache_dtype: "auto"
    add_special_tokens: True
    pairwise_tokenization: False
    sampling_backend: null
    attention_backend: null
    mem_fraction_static: 0.8
    chunked_prefill_size: 4096
    generation_parameters:
      max_new_tokens: 1024
      min_new_tokens: 0
      temperature: 1.0
      top_k: 50
      min_p: 0.0
      top_p: 1.0
      presence_penalty: 0.0
      repetition_penalty: 1.0
      frequency_penalty: 0.0

如果出现 OOM(内存不足)问题,您可能需要减小模型的上下文大小,并减小 mem_fraction_staticchunked_prefill_size 参数。

< > 在 GitHub 上更新