文本生成推理文档

快速浏览

Hugging Face's logo
加入 Hugging Face 社区

并获取增强型文档体验

开始使用

快速浏览

最简单的入门方法是使用官方的 Docker 容器。按照他们的安装说明安装 Docker。

启动 TGI

假设您想使用 TGI 在 Nvidia GPU 上部署teknium/OpenHermes-2.5-Mistral-7B模型。以下是如何操作的示例

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:2.3.1 \
    --model-id $model

如果您想服务受限或私有模型,请参阅本指南以获取详细说明。

支持的硬件

TGI 支持各种硬件。请务必检查使用 TGI 与 Nvidia GPU使用 TGI 与 AMD GPU使用 TGI 与 Intel GPU使用 TGI 与 Gaudi使用 TGI 与 Inferentia指南,具体取决于您希望在哪个硬件上部署 TGI。

使用 TGI

TGI 运行后,您可以通过请求使用 generate 端点或与 Open AI 聊天完成 API 兼容的消息 API。要了解有关如何查询端点的更多信息,请查看使用 TGI部分,我们将在其中展示使用实用程序库和 UI 的示例。您可以在下面看到查询端点的简单代码片段。

Python
JavaScript
cURL
import requests

headers = {
    "Content-Type": "application/json",
}

data = {
    'inputs': 'What is Deep Learning?',
    'parameters': {
        'max_new_tokens': 20,
    },
}

response = requests.post('http://127.0.0.1:8080/generate', headers=headers, json=data)
print(response.json())
# {'generated_text': '\n\nDeep Learning is a subset of Machine Learning that is concerned with the development of algorithms that can'}

要查看所有可能的部署标志和选项,可以使用 --help 标志。可以配置分片数量、量化、生成参数等。

docker run ghcr.io/huggingface/text-generation-inference:2.3.1 --help
< > GitHub 上的更新