optimum-tpu 文档

如何在推理端点 (IE) 上部署模型以使用 TPU 进行服务

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

如何在推理端点 (IE) 上部署模型以使用 TPU 进行服务

推理端点 (IE) 是一种使用支持的模型在 TPU 上提供生成服务的解决方案。它不需要设置单独的 GCP 帐户,并且它将提供一些预配置设置,以使用 Optimum 的 TPU TGI 提供模型服务。

您可以在推理端点上部署我们任何支持的模型(请参阅支持的模型列表)。推理端点通过设置一个可根据需求自动扩展的 TGI 服务器来提供安全的生产环境。

我们已经优化了 TPU 上的推理端点,以确保每个模型都能实现最佳性能。

1. 创建新端点

点击“新建端点”按钮,在 https://endpoints.huggingface.co 开始操作。

Create new endpoint

2. 配置新端点

通过从 TPU 支持的模型列表中进行选择来配置您的端点。注意:如果您选择不受 TPU 支持的模型,则 TPU 选项将不可见。这是为了防止在 TPU 上启动不受支持的模型而设计的。

让我们以 google/gemma-2b-it 为例。TPU 选项卡是可选的,因此我们可以确认 TPU 兼容性。请注意,此模型在 CPU 上不可用,如灰色显示的 CPU 选项所示。

Configure endpoint

注意:我们自动为每个模型选择最优的硬件和配置。对于 google/gemma-2b-it 这个较小的模型,我们选择 1 芯片 TPU (TPU v5e-1),因为 16GB HBM(高带宽内存)足以服务 2B 模型。这确保了成本效益的资源分配,避免了不必要的计算开销。

我们广泛测试和优化 TGI 配置,以最大限度地提高硬件性能。Max Input Length、Max Number of Tokens 和 Max Batch Prefill Tokens 等参数会根据每个模型的要求自动配置,并由 optimum-tpu 团队手动设置。如果您将模型设置为 google/gemma-7b-it,您会看到“容器配置”中的这些值不同,并且针对 7b 模型进行了优化。

注意:您可以通过访问界面中的环境变量部分来设置高级 TGI 功能,例如量化。例如,您可以设置“key:QUANTIZATION”和“value:1”来启用量化。您可以在我们的高级 TGI 服务指南 (./advance-tgi-config) 中查看所有这些高级 TGI 选项。

完成配置后,点击“创建端点”按钮。

3. 使用您的端点

端点需要初始化,在此期间您可以监控日志。在日志部分,您将观察到模型正在进行预热以进行编译以实现最佳性能。端点启动通常需要 5 到 30 分钟,具体取决于模型大小。此预热期间会触发多次编译,以确保最佳的服务性能。

IE init

端点完成“初始化”后,您可以通过 GUI 或 API 查询它。

IE running

使用 Playground 或 curl 命令查询您的端点。

3.1 通过 Playground 查询

使用 GUI 在 TPU 实例上编写和执行查询。

IE playground openAI

3.2 通过 curl 查询

或者,使用 curl 命令查询端点。

IE playground curl

curl "https://{INSTANCE_ID}.{REGION}.gcp.endpoints.huggingface.cloud/v1/chat/completions" \
-X POST \
-H "Authorization: Bearer hf_XXXXX" \
-H "Content-Type: application/json" \
-d '{
    "model": "tgi",
    "messages": [
        {
            "role": "user",
            "content": "What is deep learning?"
        }
    ],
    "max_tokens": 150,
    "stream": true
}'

您需要将 {INSTANCE_ID} 和 {REGION} 替换为您自己部署中的值。

后续步骤