在 Amazon SageMaker 上使用 Optimum Neuron
Optimum Neuron 通过 Hugging Face 深度学习容器 (DLC) 集成到 Amazon SageMaker 中,这些容器适用于 AWS 加速器(如 Inferentia2 和 Trainium1)。这使您能够轻松地在 Amazon SageMaker 上训练和部署 🤗 Transformers 和 Diffusers 模型,并利用 AWS 加速器。
Hugging Face DLC 镜像预装了 Optimum Neuron 和用于编译模型的工具,以便在 Inferentia2 和 Trainium1 上进行高效推理。这使得部署大型 Transformer 模型变得简单,并且开箱即用地进行了优化。
以下是有关通过 Hugging Face DLC 使用 Optimum Neuron 在 Amazon SageMaker 上训练和部署模型的端到端教程列表。遵循端到端示例,了解 Optimum Neuron 如何通过 Hugging Face DLC 镜像与 SageMaker 集成,以释放性能和成本优势。
在 Inferentia2 上部署嵌入模型以实现高效的相似性搜索
本教程介绍如何使用 Amazon SageMaker 在 AWS Inferentia2 上部署文本嵌入模型 (BGE-Base),以实现高效快速的嵌入生成;该文章展示了与 GPU 或 OpenAI 和 Amazon Bedrock 等服务相比,Inferentia2 不仅可以实现高效和快速的嵌入推理,还可以实现具有成本效益的嵌入推理。
使用 Amazon SageMaker 在 AWS Inferentia2 上部署 Llama 2 7B
本教程介绍如何使用 Amazon SageMaker 在 AWS Inferentia2 上部署对话式 Llama 2 模型,以实现低延迟推理;展示了如何利用 Inferentia2 和 SageMaker 只需几行代码即可从模型训练到生产部署。
使用 Amazon SageMaker 在 AWS Inferentia2 上部署 Stable Diffusion XL
本教程介绍如何使用 Optimum Neuron 和 Amazon SageMaker 在 AWS Inferentia2 上部署 Stable Diffusion XL 模型,以实现高效的 1024x1024 图像生成,每张图像生成时间约为 6 秒;该文章展示了如何使用一个成本为 0.99 美元/小时的 inf2.xlarge
实例每分钟生成约 10 张图像,这使得 Inferentia2 不仅可以实现高效和快速的图像推理,还可以实现具有成本效益的图像推理,与 GPU 相比。
在 AWS Inferentia2 上使用 Amazon SageMaker 部署 BERT 进行文本分类
本教程介绍如何使用 Optimum Neuron 和 Amazon SageMaker 在 AWS Inferentia2 上优化和部署 BERT 模型,以实现高效的文本分类,并达到 4 毫秒的延迟;文章展示了如何使用单个 inf2.xlarge 实例(每小时 0.99 美元)实现 116 次/秒的推理速度,在没有网络开销的情况下实现 500 次/秒的推理速度,这使得 Inferentia2 成为低延迟和经济高效的推理的绝佳选择,相比于 GPU 而言。