text-generation-inference 文档
快速导览
加入 Hugging Face 社区
并获取增强的文档体验
开始入门
快速导览
开始入门的最简单方法是使用官方 Docker 容器。按照他们的安装说明安装 Docker。
启动 TGI
假设您想在 Nvidia GPU 上使用 TGI 部署 teknium/OpenHermes-2.5-Mistral-7B 模型。以下是如何执行此操作的示例
model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:3.2.2 \
--model-id $model
如果您想服务门控或私有模型,请参阅本指南以获取详细说明。
支持的硬件
TGI 支持各种硬件。请务必查看将 TGI 与 Nvidia GPU 结合使用、将 TGI 与 AMD GPU 结合使用、将 TGI 与 Intel GPU 结合使用、将 TGI 与 Gaudi 结合使用、将 TGI 与 Inferentia 结合使用 指南,具体取决于您希望在哪个硬件上部署 TGI。
使用 TGI
一旦 TGI 运行起来,您可以使用 generate
端点或与 Open AI Chat Completion API 兼容的Messages API 进行请求。要了解有关如何查询端点的更多信息,请查看使用 TGI 部分,我们在其中展示了实用程序库和 UI 的示例。下面您可以看到一个简单的代码片段来查询端点。
Python
JavaScript
cURL
import requests
headers = {
"Content-Type": "application/json",
}
data = {
'inputs': 'What is Deep Learning?',
'parameters': {
'max_new_tokens': 20,
},
}
response = requests.post('http://127.0.0.1:8080/generate', headers=headers, json=data)
print(response.json())
# {'generated_text': '\n\nDeep Learning is a subset of Machine Learning that is concerned with the development of algorithms that can'}
要查看所有可能的部署标志和选项,您可以使用 --help
标志。可以配置分片数量、量化、生成参数等。
docker run ghcr.io/huggingface/text-generation-inference:3.2.2 --help