text-generation-inference 文档
将 TGI 与英特尔 GPU 结合使用
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
将 TGI 与英特尔 GPU 结合使用
TGI 优化模型支持 Intel 数据中心 GPU Max1100、Max1550,推荐通过 Docker 使用。
在由英特尔 GPU 驱动的服务器上,可以使用以下命令启动 TGI
model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
docker run --rm --privileged --cap-add=sys_nice \
--device=/dev/dri \
--ipc=host --shm-size 1g --net host -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:3.3.4-intel-xpu \
--model-id $model --cuda-graphs 0
将 TGI 与英特尔 CPU 结合使用
Intel® Extension for PyTorch (IPEX) 也为英特尔 CPU 提供了进一步的优化。IPEX 提供了诸如闪光注意力、页面注意力、Add + LayerNorm、ROPE 等优化操作。
在由英特尔 CPU 驱动的服务器上,可以使用以下命令启动 TGI
model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
docker run --rm --privileged --cap-add=sys_nice \
--device=/dev/dri \
--ipc=host --shm-size 1g --net host -v $volume:/data \
ghcr.io/huggingface/text-generation-inference:3.3.4-intel-cpu \
--model-id $model --cuda-graphs 0
启动的 TGI 服务器随后可以从客户端查询,请务必查看使用 TGI 指南。
< > 在 GitHub 上更新