Transformers 文档
服务
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
服务
Transformer 模型可以通过专门的库(如 Text Generation Inference (TGI) 和 vLLM)进行推理服务。这些库专门设计用于优化 LLM 的性能,并包含许多 Transformers 中可能没有的独特优化功能。
TGI
TGI 可以通过回退到模型的 Transformers 实现来服务非原生实现的模型。TGI 的一些高性能功能在 Transformers 实现中不可用,但连续批处理和流式传输等其他功能仍然受支持。
有关更多详细信息,请参阅非核心模型服务指南。
以与服务 TGI 模型相同的方式服务 Transformers 实现。
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2
在命令中添加 `—trust-remote_code` 以服务自定义 Transformers 模型。
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code
vLLM
如果模型在 vLLM 中未原生实现,vLLM 也可以服务 Transformers 实现的模型。
对于 Transformers 实现,许多功能(如量化、LoRA 适配器以及分布式推理和服务)都受支持。
有关更多详细信息,请参阅Transformers 回退部分。
默认情况下,vLLM 提供原生实现;如果原生实现不存在,则回退到 Transformers 实现。但您也可以设置 `—model-impl transformers` 以明确使用 Transformers 模型实现。
vllm serve Qwen/Qwen2.5-1.5B-Instruct \ --task generate \ --model-impl transformers
添加 `trust-remote-code` 参数以启用加载远程代码模型。
vllm serve Qwen/Qwen2.5-1.5B-Instruct \ --task generate \ --model-impl transformers \ --trust-remote-code