快速浏览
最简单的入门方法是使用官方的 Docker 容器。按照他们的安装说明安装 Docker。
启动 TGI
假设您想使用 TGI 在 Nvidia GPU 上部署teknium/OpenHermes-2.5-Mistral-7B模型。以下是如何操作的示例
model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:2.3.1 \
--model-id $model
如果您想服务受限或私有模型,请参阅本指南以获取详细说明。
支持的硬件
TGI 支持各种硬件。请务必检查使用 TGI 与 Nvidia GPU、使用 TGI 与 AMD GPU、使用 TGI 与 Intel GPU、使用 TGI 与 Gaudi、使用 TGI 与 Inferentia指南,具体取决于您希望在哪个硬件上部署 TGI。
使用 TGI
TGI 运行后,您可以通过请求使用 generate
端点或与 Open AI 聊天完成 API 兼容的消息 API。要了解有关如何查询端点的更多信息,请查看使用 TGI部分,我们将在其中展示使用实用程序库和 UI 的示例。您可以在下面看到查询端点的简单代码片段。
Python
JavaScript
cURL
import requests
headers = {
"Content-Type": "application/json",
}
data = {
'inputs': 'What is Deep Learning?',
'parameters': {
'max_new_tokens': 20,
},
}
response = requests.post('http://127.0.0.1:8080/generate', headers=headers, json=data)
print(response.json())
# {'generated_text': '\n\nDeep Learning is a subset of Machine Learning that is concerned with the development of algorithms that can'}
要查看所有可能的部署标志和选项,可以使用 --help
标志。可以配置分片数量、量化、生成参数等。
docker run ghcr.io/huggingface/text-generation-inference:2.3.1 --help