text-generation-inference 文档

快速指南

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

快速指南

最简单的入门方法是使用官方 Docker 容器。按照他们的安装说明安装 Docker。

启动 TGI

假设您想在 Nvidia GPU 上使用 TGI 部署 teknium/OpenHermes-2.5-Mistral-7B 模型。这是一个如何操作的示例

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:3.3.4 \
    --model-id $model

如果您想提供受限或私有模型,请参阅本指南以获取详细说明。

支持的硬件

TGI 支持各种硬件。请务必根据您希望部署 TGI 的硬件,查阅在 Nvidia GPU 上使用 TGI在 AMD GPU 上使用 TGI在 Intel GPU 上使用 TGI在 Gaudi 上使用 TGI在 Inferentia 上使用 TGI 等指南。

使用 TGI

TGI 运行后,您可以使用 generate 端点或与 OpenAI 聊天完成 API 兼容的 Messages API 发出请求。要了解如何查询端点,请查看使用 TGI 部分,我们在其中展示了使用实用程序库和 UI 的示例。下面您可以看到一个简单的代码片段,用于查询端点。

Python
JavaScript
cURL
import requests

headers = {
    "Content-Type": "application/json",
}

data = {
    'inputs': 'What is Deep Learning?',
    'parameters': {
        'max_new_tokens': 20,
    },
}

response = requests.post('http://127.0.0.1:8080/generate', headers=headers, json=data)
print(response.json())
# {'generated_text': '\n\nDeep Learning is a subset of Machine Learning that is concerned with the development of algorithms that can'}

要查看所有可能的部署标志和选项,您可以使用 --help 标志。可以配置分片数量、量化、生成参数等。

docker run ghcr.io/huggingface/text-generation-inference:3.3.4 --help
< > 在 GitHub 上更新