文本生成推理文档

使用 TGI 与 Nvidia GPU

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

使用 TGI 与 Nvidia GPU

TGI 优化后的模型在 NVIDIA H100A100A10GT4 GPU 上得到支持,CUDA 版本需为 12.2 或更高版本。请注意,您需要安装 NVIDIA 容器工具包 才能使用它。

对于其他 NVIDIA GPU,持续批处理仍然适用,但某些操作(例如闪存注意力和分页注意力)将不会执行。

TGI 可以通过其官方 Docker 镜像在 NVIDIA GPU 上使用

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --gpus all --shm-size 64g -p 8080:80 -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:2.3.1 \
    --model-id $model

然后可以从客户端查询已启动的 TGI 服务器,请务必查看 使用 TGI 指南。

< > 更新 在 GitHub 上