text-generation-inference 文档

快速导览

Hugging Face's logo
加入 Hugging Face 社区

并获取增强的文档体验

开始入门

快速导览

开始入门的最简单方法是使用官方 Docker 容器。按照他们的安装说明安装 Docker。

启动 TGI

假设您想在 Nvidia GPU 上使用 TGI 部署 teknium/OpenHermes-2.5-Mistral-7B 模型。以下是如何执行此操作的示例

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:3.2.2 \
    --model-id $model

如果您想服务门控或私有模型,请参阅本指南以获取详细说明。

支持的硬件

TGI 支持各种硬件。请务必查看将 TGI 与 Nvidia GPU 结合使用将 TGI 与 AMD GPU 结合使用将 TGI 与 Intel GPU 结合使用将 TGI 与 Gaudi 结合使用将 TGI 与 Inferentia 结合使用 指南,具体取决于您希望在哪个硬件上部署 TGI。

使用 TGI

一旦 TGI 运行起来,您可以使用 generate 端点或与 Open AI Chat Completion API 兼容的Messages API 进行请求。要了解有关如何查询端点的更多信息,请查看使用 TGI 部分,我们在其中展示了实用程序库和 UI 的示例。下面您可以看到一个简单的代码片段来查询端点。

Python
JavaScript
cURL
import requests

headers = {
    "Content-Type": "application/json",
}

data = {
    'inputs': 'What is Deep Learning?',
    'parameters': {
        'max_new_tokens': 20,
    },
}

response = requests.post('http://127.0.0.1:8080/generate', headers=headers, json=data)
print(response.json())
# {'generated_text': '\n\nDeep Learning is a subset of Machine Learning that is concerned with the development of algorithms that can'}

要查看所有可能的部署标志和选项,您可以使用 --help 标志。可以配置分片数量、量化、生成参数等。

docker run ghcr.io/huggingface/text-generation-inference:3.2.2 --help
< > 在 GitHub 上更新