文本生成推理文档

使用 TGI 与英特尔 GPU

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

使用 TGI 与英特尔 GPU

TGI 优化模型在英特尔数据中心 GPU Max1100Max1550 上受支持,建议通过 Docker 使用。

在由英特尔 GPU 驱动的服务器上,可以使用以下命令启动 TGI

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --rm --privileged --cap-add=sys_nice \
    --device=/dev/dri \
    --ipc=host --shm-size 1g --net host -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:2.3.1-intel-xpu \
    --model-id $model --cuda-graphs 0

使用 TGI 与英特尔 CPU

英特尔® PyTorch 扩展 (IPEX) 还为英特尔 CPU 提供了进一步的优化。IPEX 提供了闪存注意力、页面注意力、添加 + 层归一化、ROPE 等优化操作。

在由英特尔 CPU 驱动的服务器上,可以使用以下命令启动 TGI

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --rm --privileged --cap-add=sys_nice \
    --device=/dev/dri \
    --ipc=host --shm-size 1g --net host -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:2.3.1-intel-cpu \
    --model-id $model --cuda-graphs 0

然后客户端可以查询已启动的 TGI 服务器,请务必查看 使用 TGI 指南。

< > 更新 于 GitHub