optimum-tpu 文档
如何使用 TPU 在推理终点 (IE) 上部署模型以进行服务
并获得增强的文档体验
开始使用
如何使用 TPU 在推理终点 (IE) 上部署模型以进行服务
推理终点 (IE) 是一种使用 TPU 为受支持模型提供生成服务的解决方案。它不需要设置单独的 GCP 帐户,并且它将提供一些预配置的设置来使用 Optimum 的 TPU TGI 服务模型。
您可以在推理终点上部署我们任何受支持的模型(请参阅受支持的模型列表)。推理终点通过设置一个可以根据需求自动扩展的 TGI 服务器来提供安全生产环境。
我们优化了 TPU 上的推理终点,以确保每个模型都达到最佳性能。
1. 创建新的终点
点击“新建终点”按钮即可开始,网址为 https://endpoints.huggingface.co
2. 配置新的终点
通过从 TPU 支持的模型列表中选择来配置您的终点。注意:如果您选择的模型在 TPU 上不受支持,则 TPU 选项将不可见。这是设计使然,旨在防止在 TPU 上启动不受支持的模型。
让我们以 google/gemma-2b-it 为例。TPU 选项卡是可选择的,因此我们可以确认 TPU 兼容性。请注意,此模型在 CPU 上不可用,灰色显示的 CPU 选项表明了这一点。
注意:我们会为每个模型自动选择最佳硬件和配置。对于 google/gemma-2b-it 这种较小的模型,我们选择 1 芯片 TPU (TPU v5e-1),因为 16GB 的 HBM(高带宽内存)足以服务于 2B 模型。这确保了成本高效的资源分配,而不会产生不必要的计算费用。
我们广泛测试和优化 TGI 配置,以最大限度地提高硬件性能。最大输入长度、最大 Token 数和最大批次预填充 Token 数等参数会根据每个模型的要求自动配置,并由 optimum-tpu 团队手动设置。如果您将模型设置为 google/gemma-7b-it,您将看到“容器配置”中的这些值是不同的,并且针对 7b 模型进行了优化。
注意:您可以通过访问界面的环境变量部分来设置高级 TGI 功能(如量化)。例如,您可以设置“key:QUANTIZATION”和“value:1”来启用量化。您可以在我们的高级 TGI 服务指南 (./advance-tgi-config) 中查看所有这些高级 TGI 选项
完成配置后,点击“创建终点”按钮。
3. 使用您的终点
终点需要初始化,在此期间您可以监控日志。在日志部分,您将观察到模型正在进行预热以进行编译,从而获得最佳性能。终点启动通常需要 5 到 30 分钟,具体取决于模型大小。此预热期间会触发多次编译,以确保峰值服务性能。
终点完成“正在初始化”后,您可以通过 GUI 或 API 查询它。
使用 playground 或 curl 命令查询您的终点。
3.1 通过 Playground 查询
使用 GUI 在 TPU 实例上编写和执行查询。
3.2 通过 curl 查询
或者,使用 curl 命令查询终点。
curl "https://{INSTANCE_ID}.{REGION}.gcp.endpoints.huggingface.cloud/v1/chat/completions" \
-X POST \
-H "Authorization: Bearer hf_XXXXX" \
-H "Content-Type: application/json" \
-d '{
"model": "tgi",
"messages": [
{
"role": "user",
"content": "What is deep learning?"
}
],
"max_tokens": 150,
"stream": true
}'
您需要将 {INSTANCE_ID} 和 {REGION} 替换为您自己的部署值。
下一步
- 有很多方法可以与您的新推理终点进行交互。查看推理终点文档以探索不同的选项:https://huggingface.co/docs/inference-endpoints/index
- 查阅我们的 TGI 高级参数指南,了解您可以在推理终点上使用的高级 TGI 选项 (./howto/advanced-tgi-serving)
- 您可以在推理终点 TPU 目录页面上浏览 TPU 兼容模型的完整列表