文本生成推理文档

非核心模型服务

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

非核心模型服务

TGI 支持各种 LLM 架构(请参阅完整列表此处)。如果您希望服务一个不受支持的模型,TGI 将回退到该模型的 transformers 实现。这意味着您将无法使用 TGI 引入的一些功能,例如张量并行分片或 Flash Attention。但是,您仍然可以获得 TGI 的许多好处,例如连续批处理或流式输出。

您可以使用与完全支持的模型相同的 Docker 命令行调用来服务这些模型 👇

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2

如果您希望服务的模型是自定义的 transformers 模型,并且其权重和实现在 Hub 上可用,您仍然可以通过传递 --trust-remote-code 标志到 docker run 命令来服务该模型,如下所示 👇

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code

最后,如果模型不在 Hugging Face Hub 上,而是在您的本地,您可以传递包含模型的文件夹路径,如下所示 👇

# Make sure your model is in the $volume directory
docker run --shm-size 1g -p 8080:80 -v $volume:/data  ghcr.io/huggingface/text-generation-inference:latest --model-id /data/<PATH-TO-FOLDER>

您可以参考transformers 关于自定义模型的文档以获取更多信息。

< > 更新 在 GitHub 上