Transformers 文档

服务

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始

服务

Transformer 模型可以使用专门的库(如文本生成推理 (TGI) 和 vLLM)进行推理。这些库专门为优化 LLM 的性能而设计,并包含许多 Transformers 中可能不包含的独特优化功能。

TGI

TGI 可以服务于非原生实现的模型,方法是回退到模型的 Transformers 实现。TGI 的某些高性能功能在 Transformers 实现中不可用,但其他功能(如连续批处理和流式传输)仍然受支持。

有关更多详细信息,请参阅非核心模型服务指南。

以与服务 TGI 模型相同的方式服务 Transformers 实现。

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2

--trust-remote_code 添加到命令以服务自定义 Transformers 模型。

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code

vLLM

vLLM 也可以服务于模型的 Transformers 实现,如果模型在 vLLM 中不是原生实现的。

Transformers 实现支持许多功能,如量化、LoRA 适配器以及分布式推理和服务。

有关更多详细信息,请参阅 Transformers 回退部分。

默认情况下,vLLM 服务于原生实现,如果原生实现不存在,则回退到 Transformers 实现。但您也可以设置 --model-impl transformers 以显式使用 Transformers 模型实现。

vllm serve Qwen/Qwen2.5-1.5B-Instruct \
    --task generate \
    --model-impl transformers \

添加 trust-remote-code 参数以启用加载远程代码模型。

vllm serve Qwen/Qwen2.5-1.5B-Instruct \
    --task generate \
    --model-impl transformers \
    --trust-remote-code \
< > 在 GitHub 上更新