Transformers 文档

服务

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

服务

Transformer 模型可以通过专门的库(如 Text Generation Inference (TGI) 和 vLLM)进行推理服务。这些库专门设计用于优化 LLM 的性能,并包含许多 Transformers 中可能没有的独特优化功能。

TGI

TGI 可以通过回退到模型的 Transformers 实现来服务非原生实现的模型。TGI 的一些高性能功能在 Transformers 实现中不可用,但连续批处理和流式传输等其他功能仍然受支持。

有关更多详细信息,请参阅非核心模型服务指南。

以与服务 TGI 模型相同的方式服务 Transformers 实现。

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2

在命令中添加 `—trust-remote_code` 以服务自定义 Transformers 模型。

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code

vLLM

如果模型在 vLLM 中未原生实现vLLM 也可以服务 Transformers 实现的模型。

对于 Transformers 实现,许多功能(如量化、LoRA 适配器以及分布式推理和服务)都受支持。

有关更多详细信息,请参阅Transformers 回退部分。

默认情况下,vLLM 提供原生实现;如果原生实现不存在,则回退到 Transformers 实现。但您也可以设置 `—model-impl transformers` 以明确使用 Transformers 模型实现。

vllm serve Qwen/Qwen2.5-1.5B-Instruct \
    --task generate \
    --model-impl transformers

添加 `trust-remote-code` 参数以启用加载远程代码模型。

vllm serve Qwen/Qwen2.5-1.5B-Instruct \
    --task generate \
    --model-impl transformers \
    --trust-remote-code
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.