text-generation-inference 文档
非核心模型服务
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
非核心模型服务
TGI 支持各种 LLM 架构(完整列表请参见此处)。如果您希望服务的模型不是受支持的模型之一,TGI 将回退到该模型的 transformers
实现。这意味着您将无法使用 TGI 引入的某些功能,例如张量并行分片或 Flash Attention。但是,您仍然可以获得 TGI 的许多好处,例如连续批处理或流式输出。
您可以使用与完全支持的模型相同的 Docker 命令行调用来服务这些模型 👇
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2
如果您希望服务的模型是自定义 transformers 模型,并且其权重和实现已在 Hub 中提供,您仍然可以通过将 --trust-remote-code
标志传递给 docker run
命令来服务该模型,如下所示 👇
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code
最后,如果模型不在 Hugging Face Hub 上,而是在您的本地,您可以将包含模型的文件夹路径传递给命令,如下所示 👇
# Make sure your model is in the $volume directory
docker run --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id /data/<PATH-TO-FOLDER>
有关更多信息,您可以参考 transformers 关于自定义模型的文档。
< > 在 GitHub 上更新