optimum-tpu 文档
如何在推理端点 (IE) 上部署模型以使用 TPU 进行服务
并获得增强的文档体验
开始使用
如何在推理端点 (IE) 上部署模型以使用 TPU 进行服务
推理端点 (IE) 是一种使用支持的模型在 TPU 上提供生成服务的解决方案。它不需要设置单独的 GCP 帐户,并且它将提供一些预配置设置,以使用 Optimum 的 TPU TGI 提供模型服务。
您可以在推理端点上部署我们任何支持的模型(请参阅支持的模型列表)。推理端点通过设置一个可根据需求自动扩展的 TGI 服务器来提供安全的生产环境。
我们已经优化了 TPU 上的推理端点,以确保每个模型都能实现最佳性能。
1. 创建新端点
点击“新建端点”按钮,在 https://endpoints.huggingface.co 开始操作。
2. 配置新端点
通过从 TPU 支持的模型列表中进行选择来配置您的端点。注意:如果您选择不受 TPU 支持的模型,则 TPU 选项将不可见。这是为了防止在 TPU 上启动不受支持的模型而设计的。
让我们以 google/gemma-2b-it 为例。TPU 选项卡是可选的,因此我们可以确认 TPU 兼容性。请注意,此模型在 CPU 上不可用,如灰色显示的 CPU 选项所示。
注意:我们自动为每个模型选择最优的硬件和配置。对于 google/gemma-2b-it 这个较小的模型,我们选择 1 芯片 TPU (TPU v5e-1),因为 16GB HBM(高带宽内存)足以服务 2B 模型。这确保了成本效益的资源分配,避免了不必要的计算开销。
我们广泛测试和优化 TGI 配置,以最大限度地提高硬件性能。Max Input Length、Max Number of Tokens 和 Max Batch Prefill Tokens 等参数会根据每个模型的要求自动配置,并由 optimum-tpu 团队手动设置。如果您将模型设置为 google/gemma-7b-it,您会看到“容器配置”中的这些值不同,并且针对 7b 模型进行了优化。
注意:您可以通过访问界面中的环境变量部分来设置高级 TGI 功能,例如量化。例如,您可以设置“key:QUANTIZATION”和“value:1”来启用量化。您可以在我们的高级 TGI 服务指南 (./advance-tgi-config) 中查看所有这些高级 TGI 选项。
完成配置后,点击“创建端点”按钮。
3. 使用您的端点
端点需要初始化,在此期间您可以监控日志。在日志部分,您将观察到模型正在进行预热以进行编译以实现最佳性能。端点启动通常需要 5 到 30 分钟,具体取决于模型大小。此预热期间会触发多次编译,以确保最佳的服务性能。
端点完成“初始化”后,您可以通过 GUI 或 API 查询它。
使用 Playground 或 curl 命令查询您的端点。
3.1 通过 Playground 查询
使用 GUI 在 TPU 实例上编写和执行查询。
3.2 通过 curl 查询
或者,使用 curl 命令查询端点。
curl "https://{INSTANCE_ID}.{REGION}.gcp.endpoints.huggingface.cloud/v1/chat/completions" \
-X POST \
-H "Authorization: Bearer hf_XXXXX" \
-H "Content-Type: application/json" \
-d '{
"model": "tgi",
"messages": [
{
"role": "user",
"content": "What is deep learning?"
}
],
"max_tokens": 150,
"stream": true
}'
您需要将 {INSTANCE_ID} 和 {REGION} 替换为您自己部署中的值。
后续步骤
- 有多种方法可以与您的新推理端点进行交互。查看推理端点文档以探索不同的选项:https://huggingface.co/docs/inference-endpoints/index
- 请查阅我们的 TGI 高级参数指南,了解您可以在推理端点上使用的TGI高级选项 (./howto/advanced-tgi-serving)
- 您可以在 Inference Endpoints TPU 目录页面上浏览完整的 TPU 兼容模型列表。