text-generation-inference 文档

将 TGI 与 Nvidia GPU 结合使用

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

将 TGI 与 Nvidia GPU 结合使用

TGI 优化的模型支持 NVIDIA H100A100A10GT4 GPU,要求 CUDA 12.2+。请注意,您必须安装 NVIDIA Container Toolkit 才能使用它。

对于其他 NVIDIA GPU,仍将应用连续批处理,但某些操作(如闪电注意力 (flash attention) 和分页注意力 (paged attention))将不会执行。

TGI 可以通过其官方 Docker 镜像在 NVIDIA GPU 上使用

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --gpus all --shm-size 64g -p 8080:80 -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:3.3.4 \
    --model-id $model

启动的 TGI 服务器随后可以从客户端查询,请务必查看使用 TGI 指南。

< > 在 GitHub 上更新