Optimum 文档

Gaudi 上的 TGI

您正在查看 main 版本,该版本需要从源代码安装。如果您想要常规 pip 安装,请查看最新的稳定版本 (v1.24.0)。
Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

Gaudi 上的 TGI

在 Intel® Gaudi® AI 加速器上进行文本生成推理 (TGI) 通过 Intel® Gaudi® TGI 存储库 获得支持。只需拉取 TGI Gaudi Docker 镜像并启动本地 TGI 服务实例,即可在 Gaudi 系统上启动 TGI 服务。

例如,用于 Llama 2 7B 模型的 Gaudi 上的 TGI 服务可以使用以下命令启动

docker run \
  -p 8080:80 \
  -v $PWD/data:/data \
  --runtime=habana \
  -e HABANA_VISIBLE_DEVICES=all \
  -e OMPI_MCA_btl_vader_single_copy_mechanism=none \
  --cap-add=sys_nice \
  --ipc=host ghcr.io/huggingface/tgi-gaudi:2.0.1 \
  --model-id meta-llama/Llama-2-7b-hf \
  --max-input-tokens 1024 \
  --max-total-tokens 2048

然后您可以发送一个简单的请求

curl 127.0.0.1:8080/generate \
  -X POST \
  -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}' \
  -H 'Content-Type: application/json'

要运行静态基准测试,请参阅 TGI 的基准测试工具。有关在单 HPU 或多 HPU 设备系统上运行服务实例的更多示例,请访问此处

< > 在 GitHub 上更新