Optimum 文档
Gaudi 上的 TGI
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
Gaudi 上的 TGI
在 Intel® Gaudi® AI 加速器上支持文本生成推理 (TGI),通过 Intel® Gaudi® TGI 仓库。只需拉取 TGI Gaudi Docker 镜像并启动本地 TGI 服务实例,即可在 Gaudi 系统上启动 TGI 服务。
例如,可以在 Gaudi 上为 Llama 2 7B 模型启动 TGI 服务,命令如下:
docker run \
-p 8080:80 \
-v $PWD/data:/data \
--runtime=habana \
-e HABANA_VISIBLE_DEVICES=all \
-e OMPI_MCA_btl_vader_single_copy_mechanism=none \
--cap-add=sys_nice \
--ipc=host ghcr.io/huggingface/tgi-gaudi:2.0.1 \
--model-id meta-llama/Llama-2-7b-hf \
--max-input-tokens 1024 \
--max-total-tokens 2048
然后您可以发送一个简单的请求:
curl 127.0.0.1:8080/generate \
-X POST \
-d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}' \
-H 'Content-Type: application/json'
要运行静态基准测试,请参阅 TGI 的基准测试工具。有关在单或多 HPU 设备系统上运行服务实例的更多示例,请参见此处。
< > 在 GitHub 上更新