非核心模型服务

TGI 支持各种 LLM 架构（完整列表请参见此处）。如果您希望服务的模型不是受支持的模型之一，TGI 将回退到该模型的 transformers 实现。这意味着您将无法使用 TGI 引入的某些功能，例如张量并行分片或 Flash Attention。但是，您仍然可以获得 TGI 的许多好处，例如连续批处理或流式输出。

您可以使用与完全支持的模型相同的 Docker 命令行调用来服务这些模型 👇

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2

如果您希望服务的模型是自定义 transformers 模型，并且其权重和实现已在 Hub 中提供，您仍然可以通过将 --trust-remote-code 标志传递给 docker run 命令来服务该模型，如下所示 👇

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code

最后，如果模型不在 Hugging Face Hub 上，而是在您的本地，您可以将包含模型的文件夹路径传递给命令，如下所示 👇

# Make sure your model is in the $volume directory
docker run --shm-size 1g -p 8080:80 -v $volume:/data  ghcr.io/huggingface/text-generation-inference:latest --model-id /data/<PATH-TO-FOLDER>

有关更多信息，您可以参考 transformers 关于自定义模型的文档。

< > 在 GitHub 上更新