AWS Trainium & Inferentia 文档

在 AWS Inferentia2 上部署 Llama 3.3 70B

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

在 AWS Inferentia2 上部署 Llama 3.3 70B

在本教程中,您将学习如何在 Amazon SageMaker 上使用 Hugging Face Optimum 在 AWS Inferentia2 上部署 /meta-llama/Llama-3.3-70B-Instruct 模型。我们将使用 Hugging Face TGI Neuron 容器,这是一个专门构建的推理容器,旨在轻松地在由Text Generation InferenceOptimum Neuron 驱动的 AWS Inferentia2 上部署 LLM。

我们将涵盖以下内容:

  1. 设置开发环境
  2. 检索最新的 Hugging Face TGI Neuron DLC
  3. 将 Llama 3.3 70B 部署到 inferentia2
  4. 清理

让我们开始吧!🚀

AWS inferentia (Inf2) 是专为深度学习 (DL) 推理工作负载构建的 EC2 实例。以下是 Inferentia2 系列的不同实例。

实例大小 加速器 Neuron 核心 加速器内存 vCPU CPU 内存 按需价格 ($/小时)
inf2.xlarge 1 2 32 4 16 0.76
inf2.8xlarge 1 2 32 32 128 1.97
inf2.24xlarge 6 12 192 96 384 6.49
inf2.48xlarge 12 24 384 192 768 12.98

1. 设置开发环境

在本教程中,我们将使用 Amazon SageMaker 中的 Notebook 实例,并使用 Python 3 (ipykernel) 和 sagemaker python SDK 将 Llama 3.3 70B 部署到 SageMaker 推理终端节点。

请确保您已安装最新版本的 SageMaker SDK。

!pip install sagemaker --upgrade --quiet

然后,实例化 sagemaker 角色和会话。

import sagemaker
import boto3

sess = sagemaker.Session()
# sagemaker session bucket -> used for uploading data, models and logs
# sagemaker will automatically create this bucket if it not exists
sagemaker_session_bucket = None
if sagemaker_session_bucket is None and sess is not None:
    # set to default bucket if a bucket name is not given
    sagemaker_session_bucket = sess.default_bucket()

try:
    role = sagemaker.get_execution_role()
except ValueError:
    iam = boto3.client("iam")
    role = iam.get_role(RoleName="sagemaker_execution_role")["Role"]["Arn"]

sess = sagemaker.Session(default_bucket=sagemaker_session_bucket)

print(f"sagemaker role arn: {role}")
print(f"sagemaker session region: {sess.boto_region_name}")

2. 检索最新的 Hugging Face TGI Neuron DLC

最新的 Hugging Face TGI Neuron DLC 可用于在 AWS Inferentia2 上运行推理。您可以使用 sagemaker SDK 的 get_huggingface_llm_image_uri 方法,根据您所需的 backendsessionregionversion 检索合适的 Hugging Face TGI Neuron DLC URI。如果尚未添加到 SageMaker SDK,您可以在此处找到容器的最新版本。

在本教程编写时,容器的最新版本尚未添加到 Sagemaker SDK,因此我们将不使用 get_huggingface_llm_image_uri

# pulled from https://github.com/aws/sagemaker-python-sdk/blob/master/src/sagemaker/image_uri_config/huggingface-llm-neuronx.json
account_id_dict = {
    "ap-northeast-1": "763104351884",
    "ap-south-1": "763104351884",
    "ap-south-2": "772153158452",
    "ap-southeast-1": "763104351884",
    "ap-southeast-2": "763104351884",
    "ap-southeast-4": "457447274322",
    "ap-southeast-5": "550225433462",
    "ap-southeast-7": "590183813437",
    "cn-north-1": "727897471807",
    "cn-northwest-1": "727897471807",
    "eu-central-1": "763104351884",
    "eu-central-2": "380420809688",
    "eu-south-2": "503227376785",
    "eu-west-1": "763104351884",
    "eu-west-3": "763104351884",
    "il-central-1": "780543022126",
    "mx-central-1": "637423239942",
    "sa-east-1": "763104351884",
    "us-east-1": "763104351884",
    "us-east-2": "763104351884",
    "us-gov-east-1": "446045086412",
    "us-gov-west-1": "442386744353",
    "us-west-2": "763104351884",
    "ca-west-1": "204538143572",
}

region = boto3.Session().region_name
llm_image = f"{account_id_dict[region]}.dkr.ecr.{region}.amazonaws.com/huggingface-pytorch-tgi-inference:2.1.2-optimum0.0.28-neuronx-py310-ubuntu22.04"

3. 将 Llama 3.3 70B 部署到 Inferentia2

在撰写本文时,AWS Inferentia2 不支持动态形状进行推理,这意味着我们需要提前指定我们的序列长度和批次大小。为了方便客户充分利用 Inferentia2 的强大功能,我们创建了一个neuron 模型缓存,其中包含最流行的 LLM 的预编译配置,包括 Llama 3.3 70B。

这意味着我们不需要自己编译模型,但可以使用缓存中的预编译模型。您可以在 Hugging Face Hub 上找到编译/缓存的配置。如果您所需的配置尚未缓存,您可以使用 Optimum CLI 自行编译,或在 Cache 仓库 中提出请求。

将 Llama 3.3 70B 部署到 SageMaker 终端节点

在将模型部署到 Amazon SageMaker 之前,我们必须定义 TGI Neuron 终端节点配置。我们需要确保定义以下附加参数:

  • HF_NUM_CORES: 用于编译的 Neuron 核心数。
  • HF_BATCH_SIZE: 用于编译模型的批次大小。
  • HF_SEQUENCE_LENGTH: 用于编译模型的序列长度。
  • HF_AUTO_CAST_TYPE: 用于编译模型的自动类型转换类型。

我们仍然需要使用以下参数定义传统的 TGI 参数:

  • HF_MODEL_ID: Hugging Face 模型 ID。
  • HF_TOKEN: 用于访问 gated 模型的 Hugging Face API 令牌。
  • MAX_BATCH_SIZE: 模型可以处理的最大批次大小,等于用于编译的批次大小。
  • MAX_INPUT_TOKEN: 模型可以处理的最大输入长度。
  • MAX_TOTAL_TOKENS: 模型可以生成的最大总 token 数,等于用于编译的序列长度。

可选地,您可以配置终端节点以支持聊天模板

  • MESSAGES_API_ENABLED: 启用 Messages API

选择正确的实例类型

Llama 3.3 70B 是一个大型模型,需要大量内存。我们将使用 inf2.48xlarge 实例类型,它具有 192 个 vCPU 和 384 GB 加速器内存。inf2.48xlarge 实例配备 12 个 Inferentia2 加速器,其中包括 24 个 Neuron 核心。如果您想查找 Llama 3.3 70B 的缓存配置,可以在此处找到。在我们的例子中,我们将使用批次大小为 4 和序列长度为 4096。

在我们可以将 Llama 3.3 70B 部署到 Inferentia2 之前,我们需要确保我们拥有访问该模型的必要权限。您可以在此处请求访问模型,并按照本指南创建用户访问令牌。

之后,我们可以创建我们的终端节点配置并将模型部署到 Amazon SageMaker。我们将部署启用 Messages API 的终端节点,以便它与 OpenAI Chat Completion API 完全兼容。

from sagemaker.huggingface import HuggingFaceModel

# sagemaker config
instance_type = "ml.inf2.48xlarge"
health_check_timeout = 3600  # additional time to load the model
volume_size = 512  # size in GB of the EBS volume

# Define Model and Endpoint configuration parameter
config = {
    "HF_MODEL_ID": "meta-llama/Meta-Llama-3-70B-Instruct",
    "HF_NUM_CORES": "24",  # number of neuron cores
    "HF_AUTO_CAST_TYPE": "bf16",  # dtype of the model
    "MAX_BATCH_SIZE": "4",  # max batch size for the model
    "MAX_INPUT_TOKENS": "4000",  # max length of input text
    "MAX_TOTAL_TOKENS": "4096",  # max length of generated text
    "MESSAGES_API_ENABLED": "true",  # Enable the messages API
    "HF_TOKEN": "<REPLACE WITH YOUR TOKEN>",
}

assert (
    config["HF_TOKEN"] != "<REPLACE WITH YOUR TOKEN>"
), "Please replace '<REPLACE WITH YOUR TOKEN>' with your Hugging Face Hub API token"


# create HuggingFaceModel with the image uri
llm_model = HuggingFaceModel(role=role, image_uri=llm_image, env=config)

在我们创建 HuggingFaceModel 后,我们可以使用 deploy 方法将其部署到 Amazon SageMaker。我们将使用 ml.inf2.48xlarge 实例类型部署模型。TGI 将自动跨所有 Inferentia 设备分发和分片模型。

# deactivate warning since model is compiled
llm_model._is_compiled_model = True

llm = llm_model.deploy(
    initial_instance_count=1,
    instance_type=instance_type,
    container_startup_health_check_timeout=health_check_timeout,
    volume_size=volume_size,
)

SageMaker 现在将创建我们的终端节点并将模型部署到该终端节点。部署大约需要 30 分钟。

在我们的终端节点部署完成后,我们可以在其上运行推理。我们将使用来自 predictorpredict 方法在我们的终端节点上运行推理。

该终端节点支持 Messages API,它与 OpenAI Chat Completion API 完全兼容。Messages API 允许我们以对话方式与模型交互。我们可以定义消息的角色和内容。角色可以是 systemassistantusersystem 角色用于向模型提供上下文,而 user 角色用于向模型提问或提供输入。

参数可以在 payload 的 parameters 属性中定义。查看 chat completion 文档以查找支持的参数。

{
  "messages": [
    { "role": "system", "content": "You are a helpful assistant." },
    { "role": "user", "content": "What is deep learning?" }
  ]
}
# Prompt to generate
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "What is deep learning in one sentence?"},
]

# Generation arguments https://platform.openai.com/docs/api-reference/chat/create
parameters = {
    "max_tokens": 100,
}

好的,让我们测试一下。

chat = llm.predict({"messages": messages, **parameters, "steam": True})

print(chat["choices"][0]["message"]["content"].strip())

4. 清理

要清理,我们可以删除模型和终端节点。

llm.delete_model()
llm.delete_endpoint()