如何在推理端点 (IE) 上部署模型以使用 TPU 进行服务

推理端点 (IE) 是一种使用支持的模型在 TPU 上提供生成服务的解决方案。它不需要设置单独的 GCP 帐户，并且它将提供一些预配置设置，以使用 Optimum 的 TPU TGI 提供模型服务。

您可以在推理端点上部署我们任何支持的模型（请参阅支持的模型列表）。推理端点通过设置一个可根据需求自动扩展的 TGI 服务器来提供安全的生产环境。

我们已经优化了 TPU 上的推理端点，以确保每个模型都能实现最佳性能。

1. 创建新端点

点击“新建端点”按钮，在 https://endpoints.huggingface.co 开始操作。

Create new endpoint

2. 配置新端点

通过从 TPU 支持的模型列表中进行选择来配置您的端点。注意：如果您选择不受 TPU 支持的模型，则 TPU 选项将不可见。这是为了防止在 TPU 上启动不受支持的模型而设计的。

让我们以 google/gemma-2b-it 为例。TPU 选项卡是可选的，因此我们可以确认 TPU 兼容性。请注意，此模型在 CPU 上不可用，如灰色显示的 CPU 选项所示。

Configure endpoint

注意：我们自动为每个模型选择最优的硬件和配置。对于 google/gemma-2b-it 这个较小的模型，我们选择 1 芯片 TPU (TPU v5e-1)，因为 16GB HBM（高带宽内存）足以服务 2B 模型。这确保了成本效益的资源分配，避免了不必要的计算开销。

我们广泛测试和优化 TGI 配置，以最大限度地提高硬件性能。Max Input Length、Max Number of Tokens 和 Max Batch Prefill Tokens 等参数会根据每个模型的要求自动配置，并由 optimum-tpu 团队手动设置。如果您将模型设置为 google/gemma-7b-it，您会看到“容器配置”中的这些值不同，并且针对 7b 模型进行了优化。

注意：您可以通过访问界面中的环境变量部分来设置高级 TGI 功能，例如量化。例如，您可以设置“key:QUANTIZATION”和“value:1”来启用量化。您可以在我们的高级 TGI 服务指南 (./advance-tgi-config) 中查看所有这些高级 TGI 选项。

完成配置后，点击“创建端点”按钮。

3. 使用您的端点

端点需要初始化，在此期间您可以监控日志。在日志部分，您将观察到模型正在进行预热以进行编译以实现最佳性能。端点启动通常需要 5 到 30 分钟，具体取决于模型大小。此预热期间会触发多次编译，以确保最佳的服务性能。

IE init

端点完成“初始化”后，您可以通过 GUI 或 API 查询它。

IE running

使用 Playground 或 curl 命令查询您的端点。

3.1 通过 Playground 查询

使用 GUI 在 TPU 实例上编写和执行查询。

IE playground openAI

3.2 通过 curl 查询

或者，使用 curl 命令查询端点。

IE playground curl

curl "https://{INSTANCE_ID}.{REGION}.gcp.endpoints.huggingface.cloud/v1/chat/completions" \
-X POST \
-H "Authorization: Bearer hf_XXXXX" \
-H "Content-Type: application/json" \
-d '{
    "model": "tgi",
    "messages": [
        {
            "role": "user",
            "content": "What is deep learning?"
        }
    ],
    "max_tokens": 150,
    "stream": true
}'

您需要将 {INSTANCE_ID} 和 {REGION} 替换为您自己部署中的值。

后续步骤

有多种方法可以与您的新推理端点进行交互。查看推理端点文档以探索不同的选项：https://huggingface.co/docs/inference-endpoints/index
请查阅我们的 TGI 高级参数指南，了解您可以在推理端点上使用的TGI高级选项 (./howto/advanced-tgi-serving)
您可以在 Inference Endpoints TPU 目录页面上浏览完整的 TPU 兼容模型列表。