在 AWS Inferentia2 上部署来自 Hugging Face 的模型

AWS Inferentia2 是 AWS 最新的机器学习芯片,可通过 Amazon Web Services 上的 Amazon EC2 Inf2 实例获得。Inf2 实例专为 AI 工作负载而设计,可为生产环境的工作负载提供卓越的性能和性价比。
一年多来,我们一直与 AWS 的产品和工程团队合作,致力于为 Hugging Face 用户提供 AWS Trainium 和 Inferentia 芯片的性能和成本效益。我们的开源库 optimum-neuron
使得在这些加速器上训练和部署 Hugging Face 模型变得轻而易举。您可以阅读更多关于我们加速 Transformer 模型、大型语言模型和文本生成推理 (TGI) 的工作。
今天,我们正在将 Inferentia2 的强大能力直接、广泛地提供给 Hugging Face Hub 用户。
通过 Amazon SageMaker 在 AWS Inferentia2 上支持超过 100,000 个模型
几个月前,我们引入了一种在 SageMaker 上部署大型语言模型 (LLM) 的新方法,为 Meta Llama 3 等受支持的模型提供了新的 Inferentia/Trainium 选项。您可以在 SageMaker 上的 Inferentia2 实例上部署 Llama3 模型,以进行大规模推理服务,并受益于 SageMaker 为模型构建和微调、MLOps 和治理提供的一整套完全托管的功能。
今天,我们将这种部署体验的支持范围扩大到 Hugging Face 上的超过 100,000 个公开模型,包括 14 种新的模型架构 (albert
、bert
、camembert
、convbert
、deberta
、deberta-v2
、distilbert
、electra
、roberta
、mobilebert
、mpnet
、vit
、xlm
、xlm-roberta
) 和 6 种新的机器学习任务 (文本分类
、文本生成
、令牌分类
、掩码填充
、问答
、特征提取
)。
遵循这些简单的代码片段,AWS 客户将能够轻松地在 Amazon SageMaker 的 Inferentia2 实例上部署模型。
Hugging Face 推理终端 (Inference Endpoints) 现已支持 AWS Inferentia2
从 Hub 部署模型最简单的选项是 Hugging Face 推理终端 (Inference Endpoints)。今天,我们很高兴为 Hugging Face 推理终端引入新的 Inferentia 2 实例。现在,当您在 Hugging Face 中找到感兴趣的模型时,只需点击几下即可将其部署在 Inferentia2 上。您只需选择要部署的模型,在 Amazon Web Services 实例配置下选择新的 Inf2 实例选项,即可开始使用。
对于像 Llama 3 这样的受支持模型,您可以选择两种规格:
- Inf2-small,配备 2 核和 32 GB 内存 (每小时 0.75 美元),非常适合 Llama 3 8B
- Inf2-xlarge,配备 24 核和 384 GB 内存 (每小时 12 美元),非常适合 Llama 3 70B
Hugging Face 推理终端按使用的容量秒数计费,成本会随着副本自动扩展而增加,并通过缩容至零 (scale to zero) 功能降至零——这两项功能都是自动化的,并且可以通过易于使用的设置启用。
推理终端使用 基于 Neuron 的文本生成推理 (TGI) 在 AWS Inferentia 上运行 Llama 3。TGI 是一个专门为大规模生产工作负载部署和服务大型语言模型 (LLM) 而构建的解决方案,支持连续批处理、流式传输等多种功能。此外,使用文本生成推理部署的 LLM 与 OpenAI SDK Messages API 兼容,因此,如果您已经有与 LLM 集成的 Gen AI 应用程序,您无需更改应用程序的代码,只需将请求指向您用 Hugging Face 推理终端部署的新端点即可。
在 Inferentia2 上部署端点后,您可以使用 UI 中提供的小组件 (Widget) 或 OpenAI SDK 发送请求。
下一步计划
我们正在努力扩大可通过 Hugging Face 推理终端在 AWS Inferentia2 上部署的模型范围。接下来,我们希望增加对 Diffusion 和 Embedding 模型的支持,这样您就可以利用 AWS Inferentia2 的加速能力和 Hugging Face 推理终端的易用性来生成图像并构建语义搜索和推荐系统。
此外,我们将继续努力提升文本生成推理 (TGI) on Neuronx 的性能,确保在我们的开源库中,LLM 在 AWS Inferentia 2 上的部署更快、更高效。敬请期待这些更新,我们将继续增强我们的能力并优化您的部署体验!