optimum-tpu 文档

如何使用 TPU 在推理终点 (IE) 上部署模型以进行服务

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

如何使用 TPU 在推理终点 (IE) 上部署模型以进行服务

推理终点 (IE) 是一种使用 TPU 为受支持模型提供生成服务的解决方案。它不需要设置单独的 GCP 帐户,并且它将提供一些预配置的设置来使用 Optimum 的 TPU TGI 服务模型。

您可以在推理终点上部署我们任何受支持的模型(请参阅受支持的模型列表)。推理终点通过设置一个可以根据需求自动扩展的 TGI 服务器来提供安全生产环境。

我们优化了 TPU 上的推理终点,以确保每个模型都达到最佳性能。

1. 创建新的终点

点击“新建终点”按钮即可开始,网址为 https://endpoints.huggingface.co

Create new endpoint

2. 配置新的终点

通过从 TPU 支持的模型列表中选择来配置您的终点。注意:如果您选择的模型在 TPU 上不受支持,则 TPU 选项将不可见。这是设计使然,旨在防止在 TPU 上启动不受支持的模型。

让我们以 google/gemma-2b-it 为例。TPU 选项卡是可选择的,因此我们可以确认 TPU 兼容性。请注意,此模型在 CPU 上不可用,灰色显示的 CPU 选项表明了这一点。

Configure endpoint

注意:我们会为每个模型自动选择最佳硬件和配置。对于 google/gemma-2b-it 这种较小的模型,我们选择 1 芯片 TPU (TPU v5e-1),因为 16GB 的 HBM(高带宽内存)足以服务于 2B 模型。这确保了成本高效的资源分配,而不会产生不必要的计算费用。

我们广泛测试和优化 TGI 配置,以最大限度地提高硬件性能。最大输入长度、最大 Token 数和最大批次预填充 Token 数等参数会根据每个模型的要求自动配置,并由 optimum-tpu 团队手动设置。如果您将模型设置为 google/gemma-7b-it,您将看到“容器配置”中的这些值是不同的,并且针对 7b 模型进行了优化。

注意:您可以通过访问界面的环境变量部分来设置高级 TGI 功能(如量化)。例如,您可以设置“key:QUANTIZATION”和“value:1”来启用量化。您可以在我们的高级 TGI 服务指南 (./advance-tgi-config) 中查看所有这些高级 TGI 选项

完成配置后,点击“创建终点”按钮。

3. 使用您的终点

终点需要初始化,在此期间您可以监控日志。在日志部分,您将观察到模型正在进行预热以进行编译,从而获得最佳性能。终点启动通常需要 5 到 30 分钟,具体取决于模型大小。此预热期间会触发多次编译,以确保峰值服务性能。

IE init

终点完成“正在初始化”后,您可以通过 GUI 或 API 查询它。

IE running

使用 playground 或 curl 命令查询您的终点。

3.1 通过 Playground 查询

使用 GUI 在 TPU 实例上编写和执行查询。

IE playground openAI

3.2 通过 curl 查询

或者,使用 curl 命令查询终点。

IE playground curl

curl "https://{INSTANCE_ID}.{REGION}.gcp.endpoints.huggingface.cloud/v1/chat/completions" \
-X POST \
-H "Authorization: Bearer hf_XXXXX" \
-H "Content-Type: application/json" \
-d '{
    "model": "tgi",
    "messages": [
        {
            "role": "user",
            "content": "What is deep learning?"
        }
    ],
    "max_tokens": 150,
    "stream": true
}'

您需要将 {INSTANCE_ID} 和 {REGION} 替换为您自己的部署值。

下一步