使用 SGLang 作为后端

Lighteval 允许您使用 sglang 作为后端，从而实现极大的速度提升。要使用，只需更改 model_args 以反映您想要传递给 sglang 的参数。

lighteval sglang \
    "pretrained=HuggingFaceH4/zephyr-7b-beta,dtype=float16" \
    "leaderboard|truthfulqa:mc|0|0"

sglang 能够使用数据并行和张量并行在多个 GPU 之间分配模型。您可以通过在 model_args 中设置来选择并行方法。

例如，如果您有 4 个 GPU，您可以将其拆分，使用 tp_size

lighteval sglang \
    "pretrained=HuggingFaceH4/zephyr-7b-beta,dtype=float16,tp_size=4" \
    "leaderboard|truthfulqa:mc|0|0"

或者，如果您的模型适合单个 GPU，您可以使用 dp_size 来加速评估

lighteval sglang \
    "pretrained=HuggingFaceH4/zephyr-7b-beta,dtype=float16,dp_size=4" \
    "leaderboard|truthfulqa:mc|0|0"

使用配置文件

对于更高级的配置，您可以为模型使用配置文件。下面显示了一个配置文件示例，可以在 examples/model_configs/sglang_model_config.yaml 中找到。

lighteval sglang \
    "examples/model_configs/sglang_model_config.yaml" \
    "leaderboard|truthfulqa:mc|0|0"

model: # Model specific parameters
  base_params:
    model_args: "pretrained=HuggingFaceTB/SmolLM-1.7B,dtype=float16,chunked_prefill_size=4096,mem_fraction_static=0.9" # Model args that you would pass in the command line
  generation: # Generation specific parameters
    temperature: 0.3
    repetition_penalty: 1.0
    frequency_penalty: 0.0
    presence_penalty: 0.0
    top_k: -1
    min_p: 0.0
    top_p: 0.9
    max_new_tokens: 256
    stop_tokens: ["<EOS>", "<PAD>"]

在出现 OOM 问题的情况下，您可能需要减小模型的上下文大小，并减小 mem_fraction_static 和 chunked_prefill_size 参数。

< > 在 GitHub 上更新