快速导览

开始入门的最简单方法是使用官方 Docker 容器。按照他们的安装说明安装 Docker。

启动 TGI

假设您想在 Nvidia GPU 上使用 TGI 部署 teknium/OpenHermes-2.5-Mistral-7B 模型。以下是如何执行此操作的示例

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:3.2.2 \
    --model-id $model

如果您想服务门控或私有模型，请参阅本指南以获取详细说明。

支持的硬件

TGI 支持各种硬件。请务必查看将 TGI 与 Nvidia GPU 结合使用、将 TGI 与 AMD GPU 结合使用、将 TGI 与 Intel GPU 结合使用、将 TGI 与 Gaudi 结合使用、将 TGI 与 Inferentia 结合使用指南，具体取决于您希望在哪个硬件上部署 TGI。

使用 TGI

一旦 TGI 运行起来，您可以使用 generate 端点或与 Open AI Chat Completion API 兼容的Messages API 进行请求。要了解有关如何查询端点的更多信息，请查看使用 TGI 部分，我们在其中展示了实用程序库和 UI 的示例。下面您可以看到一个简单的代码片段来查询端点。

Python

JavaScript

cURL

要查看所有可能的部署标志和选项，您可以使用 --help 标志。可以配置分片数量、量化、生成参数等。

docker run ghcr.io/huggingface/text-generation-inference:3.2.2 --help

< > 在 GitHub 上更新