快速入门 - 使用 SageMaker Jumpstart 部署 Hugging Face 模型

为什么使用 SageMaker JumpStart 部署 Hugging Face 模型？

Amazon SageMaker JumpStart 允许您一键部署最流行的 Hugging Face 开源模型，并将其部署到您自己的 AWS 账户中。JumpStart 提供了一个精选的模型检查点选择，适用于各种任务，包括文本生成、嵌入、视觉、音频等。大多数模型使用官方的Hugging Face 深度学习容器进行部署，并采用合理的默认实例类型，因此您可以在几分钟内从想法变为生产。

在本快速入门指南中，我们将部署Qwen/Qwen2.5-14B-Instruct。

1. 先决条件

	要求
已启用 SageMaker 的 AWS 账户	一个包含您所有 AWS 资源的 AWS 账户。
一个用于访问 SageMaker AI 的 IAM 角色	在本指南中了解有关 IAM 如何与 SageMaker AI 配合使用的更多信息。
SageMaker Studio 域和用户配置文件	我们建议使用 SageMaker Studio 进行直接部署和推理。请遵循此指南。
服务配额	大多数 LLM 需要 GPU 实例（例如 ml.g5）。请验证您是否有 `ml.g5.24xlarge` 的配额，或者请求增加配额。

2· 端点部署

让我们解释一下如何通过 Jumpstart 目录部署 Hugging Face 模型到 SageMaker

打开 SageMaker → JumpStart。
筛选“Hugging Face”或搜索您的模型（例如 Qwen2.5-14B）。
单击“部署”→（可选）调整实例大小/数量→“部署”。
等待直到“端点”显示为“正在服务”。
复制端点名称（或 ARN）以备后用。

或者，您也可以浏览 Hugging Face 模型中心

打开模型页面 → 点击“部署”→ SageMaker → 如果模型可用，则选择“Jumpstart”选项卡。
复制代码片段并从 SageMaker Notebook 实例中使用它。

# SageMaker JumpStart provides APIs as part of SageMaker SDK that allow you to deploy and fine-tune models in network isolation using scripts that SageMaker maintains.

from sagemaker.jumpstart.model import JumpStartModel


model = JumpStartModel(model_id="huggingface-llm-qwen2-5-14b-instruct")
example_payloads = model.retrieve_all_examples()

predictor = model.deploy()

for payload in example_payloads:
    response = predictor.predict(payload.body)
    print("Input:\n", payload.body[payload.prompt_key])
    print("Output:\n", response[0]["generated_text"], "\n\n===============\n")

端点创建可能需要几分钟，具体取决于模型的大小。

3. 交互式测试

如果您通过控制台部署，您需要获取端点 ARN 并在代码中重复使用。

from sagemaker.predictor import retrieve_default
endpoint_name = "MY ENDPOINT NAME"
predictor = retrieve_default(endpoint_name)
payload = {
    "messages": [
        {
            "role": "system",
            "content": "You are a passionate data scientist."
        },
        {
            "role": "user",
            "content": "what is machine learning?"
        }
    ],
    "max_tokens": 2048,
    "temperature": 0.7,
    "top_p": 0.9,
    "stream": False
}

response = predictor.predict(payload)
print(response)

该端点支持 OpenAI API 规范。

4. 清理

为避免产生不必要的费用，完成后，请在“部署”→“端点”控制台中或使用以下代码片段删除 SageMaker 端点

predictor.delete_model()
predictor.delete_endpoint()