Google TPU 文档

在 Google Cloud TPU 实例上部署文本生成推理服务器

Hugging Face's logo
加入 Hugging Face 社区

并获得增强型文档体验

开始使用

在 Google Cloud TPU 实例上部署文本生成推理服务器

上下文

文本生成推理 (TGI) 是一种高度优化的服务引擎,它能够以更好地利用底层硬件(在本例中为 Cloud TPU)的方式来服务大型语言模型 (LLM)。

在 Cloud TPU 实例上部署 TGI

我们假设读者已经启动并运行了一个 Cloud TPU 实例。如果不是这种情况,请参阅我们的指南以了解如何部署一个 这里

Docker 容器构建

Optimum-TPU 在根级别提供了一个 make tpu-tgi 命令,以帮助您创建本地 docker 镜像。

Docker 容器运行

HF_TOKEN=<your_hf_token_here>
MODEL_ID=google/gemma-2b

sudo docker run --net=host \
                --privileged \
                -v $(pwd)/data:/data \
                -e HF_TOKEN=${HF_TOKEN} \
                huggingface/optimum-tpu:latest \
                --model-id ${MODEL_ID} \
                --max-concurrent-requests 4 \
                --max-input-length 32 \
                --max-total-tokens 64 \
                --max-batch-size 1

对服务执行请求

您可以使用 /generate/generate_stream 路由查询模型

curl localhost/generate \
    -X POST \
    -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":20}}' \
    -H 'Content-Type: application/json'
curl localhost/generate_stream \
    -X POST \
    -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":20}}' \
    -H 'Content-Type: application/json'