服务

Transformer 模型可以使用专门的库（如文本生成推理 (TGI) 和 vLLM）进行推理。这些库专门为优化 LLM 的性能而设计，并包含许多 Transformers 中可能不包含的独特优化功能。

TGI

TGI 可以服务于非原生实现的模型，方法是回退到模型的 Transformers 实现。TGI 的某些高性能功能在 Transformers 实现中不可用，但其他功能（如连续批处理和流式传输）仍然受支持。

有关更多详细信息，请参阅非核心模型服务指南。

以与服务 TGI 模型相同的方式服务 Transformers 实现。

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2

将 --trust-remote_code 添加到命令以服务自定义 Transformers 模型。

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code

vLLM

vLLM 也可以服务于模型的 Transformers 实现，如果模型在 vLLM 中不是原生实现的。

Transformers 实现支持许多功能，如量化、LoRA 适配器以及分布式推理和服务。

有关更多详细信息，请参阅 Transformers 回退部分。

默认情况下，vLLM 服务于原生实现，如果原生实现不存在，则回退到 Transformers 实现。但您也可以设置 --model-impl transformers 以显式使用 Transformers 模型实现。

vllm serve Qwen/Qwen2.5-1.5B-Instruct \
    --task generate \
    --model-impl transformers \

添加 trust-remote-code 参数以启用加载远程代码模型。

vllm serve Qwen/Qwen2.5-1.5B-Instruct \
    --task generate \
    --model-impl transformers \
    --trust-remote-code \

< > 在 GitHub 上更新