在 Amazon SageMaker 上使用 Optimum Neuron

Optimum Neuron 通过 Hugging Face 深度学习容器集成到 Amazon SageMaker 中，以支持 AWS 加速器，如 Inferentia2 和 Trainium1。这使您能够轻松地在 Amazon SageMaker 上训练和部署 🤗 Transformers 和 Diffusers 模型，并利用 AWS 加速器。

Hugging Face DLC 镜像预装了 Optimum Neuron 和用于编译模型的工具，以便在 Inferentia2 和 Trainium1 上进行高效推理。这使得部署大型 Transformer 模型变得简单且开箱即用。

以下是关于通过 Hugging Face DLC 使用 Optimum Neuron 在 Amazon SageMaker 上训练和部署模型的可用端到端教程列表。请按照端到端示例学习 Optimum Neuron 如何通过 Hugging Face DLC 镜像与 SageMaker 集成，以释放性能和成本优势。

在 Inferentia2 上部署嵌入模型以实现高效相似度搜索

关于如何在 Amazon SageMaker 上使用 AWS Inferentia2 部署文本嵌入模型 (BGE-Base) 以实现高效快速的嵌入生成的教程；这篇文章展示了与 GPU 或 OpenAI 和 Amazon Bedrock 等服务相比，Inferentia2 如何成为高效、快速且经济高效的嵌入推理的绝佳选择。

在 AWS inferentia2 上使用 Amazon SageMaker 部署 Llama 2 7B

关于如何在 Amazon SageMaker 上使用 AWS Inferentia2 部署对话式 Llama 2 模型以实现低延迟推理的教程；展示了如何利用 Inferentia2 和 SageMaker，仅需几行代码即可从模型训练到生产部署。

在 AWS inferentia2 上使用 Amazon SageMaker 部署 Stable Diffusion XL

关于如何在 Amazon SageMaker 上使用 Optimum Neuron 和 AWS Inferentia2 部署 Stable Diffusion XL 模型以实现高效的 1024x1024 图像生成的教程，每张图像耗时约 6 秒；这篇文章展示了单个 `inf2.xlarge` 实例（每小时 0.99 美元）如何实现每分钟约 10 张图像的生成速度，这使得 Inferentia2 成为与 GPU 相比，高效、快速且经济高效的图像推理的绝佳选择。

在 AWS inferentia2 上使用 Amazon SageMaker 部署 BERT 进行文本分类

关于如何在 Amazon SageMaker 上使用 Optimum Neuron 和 AWS Inferentia2 优化和部署 BERT 模型以实现高效文本分类的教程，延迟为 4 毫秒；这篇文章展示了单个 inf2.xlarge 实例（每小时 0.99 美元）如何在没有网络开销的情况下实现 116 次推理/秒和 500 次推理/秒，这使得 Inferentia2 成为与 GPU 相比，低延迟且经济高效的推理的绝佳选择。

AWS Trainium 和 Inferentia

在 Amazon SageMaker 上使用 Optimum Neuron

在 Inferentia2 上部署嵌入模型以实现高效相似度搜索

在 AWS inferentia2 上使用 Amazon SageMaker 部署 Llama 2 7B

在 AWS inferentia2 上使用 Amazon SageMaker 部署 Stable Diffusion XL

在 AWS inferentia2 上使用 Amazon SageMaker 部署 BERT 进行文本分类