在 AWS 上部署的文档
快速入门 - 使用 SageMaker Jumpstart 部署 Hugging Face 模型
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
快速入门 - 使用 SageMaker Jumpstart 部署 Hugging Face 模型
为什么使用 SageMaker JumpStart 部署 Hugging Face 模型?
Amazon SageMaker JumpStart 允许您一键部署最流行的 Hugging Face 开源模型,并将其部署到您自己的 AWS 账户中。JumpStart 提供了一个精选的模型检查点选择,适用于各种任务,包括文本生成、嵌入、视觉、音频等。大多数模型使用官方的Hugging Face 深度学习容器进行部署,并采用合理的默认实例类型,因此您可以在几分钟内从想法变为生产。
在本快速入门指南中,我们将部署Qwen/Qwen2.5-14B-Instruct。
1. 先决条件
要求 | |
---|---|
已启用 SageMaker 的 AWS 账户 | 一个包含您所有 AWS 资源的 AWS 账户。 |
一个用于访问 SageMaker AI 的 IAM 角色 | 在本指南中了解有关 IAM 如何与 SageMaker AI 配合使用的更多信息。 |
SageMaker Studio 域和用户配置文件 | 我们建议使用 SageMaker Studio 进行直接部署和推理。请遵循此指南。 |
服务配额 | 大多数 LLM 需要 GPU 实例(例如 ml.g5)。请验证您是否有 `ml.g5.24xlarge` 的配额,或者请求增加配额。 |
2· 端点部署
让我们解释一下如何通过 Jumpstart 目录部署 Hugging Face 模型到 SageMaker
- 打开 SageMaker → JumpStart。
- 筛选“Hugging Face”或搜索您的模型(例如 Qwen2.5-14B)。
- 单击“部署”→(可选)调整实例大小/数量→“部署”。
- 等待直到“端点”显示为“正在服务”。
- 复制端点名称(或 ARN)以备后用。

或者,您也可以浏览 Hugging Face 模型中心
- 打开模型页面 → 点击“部署”→ SageMaker → 如果模型可用,则选择“Jumpstart”选项卡。
- 复制代码片段并从 SageMaker Notebook 实例中使用它。

# SageMaker JumpStart provides APIs as part of SageMaker SDK that allow you to deploy and fine-tune models in network isolation using scripts that SageMaker maintains.
from sagemaker.jumpstart.model import JumpStartModel
model = JumpStartModel(model_id="huggingface-llm-qwen2-5-14b-instruct")
example_payloads = model.retrieve_all_examples()
predictor = model.deploy()
for payload in example_payloads:
response = predictor.predict(payload.body)
print("Input:\n", payload.body[payload.prompt_key])
print("Output:\n", response[0]["generated_text"], "\n\n===============\n")
端点创建可能需要几分钟,具体取决于模型的大小。
3. 交互式测试
如果您通过控制台部署,您需要获取端点 ARN 并在代码中重复使用。
from sagemaker.predictor import retrieve_default
endpoint_name = "MY ENDPOINT NAME"
predictor = retrieve_default(endpoint_name)
payload = {
"messages": [
{
"role": "system",
"content": "You are a passionate data scientist."
},
{
"role": "user",
"content": "what is machine learning?"
}
],
"max_tokens": 2048,
"temperature": 0.7,
"top_p": 0.9,
"stream": False
}
response = predictor.predict(payload)
print(response)
该端点支持 OpenAI API 规范。
4. 清理
为避免产生不必要的费用,完成后,请在“部署”→“端点”控制台中或使用以下代码片段删除 SageMaker 端点
predictor.delete_model() predictor.delete_endpoint()