Transformers 文档
服务
加入 Hugging Face 社区
并获取增强的文档体验
开始
服务
Transformer 模型可以使用专门的库(如文本生成推理 (TGI) 和 vLLM)进行推理。这些库专门为优化 LLM 的性能而设计,并包含许多 Transformers 中可能不包含的独特优化功能。
TGI
TGI 可以服务于非原生实现的模型,方法是回退到模型的 Transformers 实现。TGI 的某些高性能功能在 Transformers 实现中不可用,但其他功能(如连续批处理和流式传输)仍然受支持。
有关更多详细信息,请参阅非核心模型服务指南。
以与服务 TGI 模型相同的方式服务 Transformers 实现。
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2
将 --trust-remote_code
添加到命令以服务自定义 Transformers 模型。
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code
vLLM
vLLM 也可以服务于模型的 Transformers 实现,如果模型在 vLLM 中不是原生实现的。
Transformers 实现支持许多功能,如量化、LoRA 适配器以及分布式推理和服务。
有关更多详细信息,请参阅 Transformers 回退部分。
默认情况下,vLLM 服务于原生实现,如果原生实现不存在,则回退到 Transformers 实现。但您也可以设置 --model-impl transformers
以显式使用 Transformers 模型实现。
vllm serve Qwen/Qwen2.5-1.5B-Instruct \ --task generate \ --model-impl transformers \
添加 trust-remote-code
参数以启用加载远程代码模型。
vllm serve Qwen/Qwen2.5-1.5B-Instruct \ --task generate \ --model-impl transformers \ --trust-remote-code \