在 Google Cloud TPU 实例上部署文本生成推理服务器
上下文
文本生成推理 (TGI) 是一种高度优化的服务引擎,它能够以更好地利用底层硬件(在本例中为 Cloud TPU)的方式来服务大型语言模型 (LLM)。
在 Cloud TPU 实例上部署 TGI
我们假设读者已经启动并运行了一个 Cloud TPU 实例。如果不是这种情况,请参阅我们的指南以了解如何部署一个 这里
Docker 容器构建
Optimum-TPU 在根级别提供了一个 make tpu-tgi
命令,以帮助您创建本地 docker 镜像。
Docker 容器运行
HF_TOKEN=<your_hf_token_here>
MODEL_ID=google/gemma-2b
sudo docker run --net=host \
--privileged \
-v $(pwd)/data:/data \
-e HF_TOKEN=${HF_TOKEN} \
huggingface/optimum-tpu:latest \
--model-id ${MODEL_ID} \
--max-concurrent-requests 4 \
--max-input-length 32 \
--max-total-tokens 64 \
--max-batch-size 1
对服务执行请求
您可以使用 /generate
或 /generate_stream
路由查询模型
curl localhost/generate \
-X POST \
-d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":20}}' \
-H 'Content-Type: application/json'
curl localhost/generate_stream \
-X POST \
-d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":20}}' \
-H 'Content-Type: application/json'