text-generation-inference 文档
快速指南
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
快速指南
最简单的入门方法是使用官方 Docker 容器。按照他们的安装说明安装 Docker。
启动 TGI
假设您想在 Nvidia GPU 上使用 TGI 部署 teknium/OpenHermes-2.5-Mistral-7B 模型。这是一个如何操作的示例
model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:3.3.4 \
--model-id $model
如果您想提供受限或私有模型,请参阅本指南以获取详细说明。
支持的硬件
TGI 支持各种硬件。请务必根据您希望部署 TGI 的硬件,查阅在 Nvidia GPU 上使用 TGI、在 AMD GPU 上使用 TGI、在 Intel GPU 上使用 TGI、在 Gaudi 上使用 TGI、在 Inferentia 上使用 TGI 等指南。
使用 TGI
TGI 运行后,您可以使用 generate
端点或与 OpenAI 聊天完成 API 兼容的 Messages API 发出请求。要了解如何查询端点,请查看使用 TGI 部分,我们在其中展示了使用实用程序库和 UI 的示例。下面您可以看到一个简单的代码片段,用于查询端点。
Python
JavaScript
cURL
import requests
headers = {
"Content-Type": "application/json",
}
data = {
'inputs': 'What is Deep Learning?',
'parameters': {
'max_new_tokens': 20,
},
}
response = requests.post('http://127.0.0.1:8080/generate', headers=headers, json=data)
print(response.json())
# {'generated_text': '\n\nDeep Learning is a subset of Machine Learning that is concerned with the development of algorithms that can'}
要查看所有可能的部署标志和选项,您可以使用 --help
标志。可以配置分片数量、量化、生成参数等。
docker run ghcr.io/huggingface/text-generation-inference:3.3.4 --help