text-generation-inference 文档
在 Nvidia GPU 上使用 TGI
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
在 Nvidia GPU 上使用 TGI
TGI 优化模型在配备 CUDA 12.2+ 的 NVIDIA H100、A100、A10G 和 T4 GPU 上受支持。请注意,您必须安装 NVIDIA Container Toolkit 才能使用它。
对于其他 NVIDIA GPU,持续批处理仍然适用,但像 flash attention 和 paged attention 这样的操作将不会执行。
TGI 可以通过其官方 Docker 镜像在 NVIDIA GPU 上使用
model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
docker run --gpus all --shm-size 64g -p 8080:80 -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:3.2.2 \
--model-id $model
启动的 TGI 服务器随后可以从客户端查询,请务必查看“使用 TGI”指南。
< > 更新 在 GitHub 上