AWS Trainium 和 Inferentia 文档

在 Amazon SageMaker 上使用 Optimum Neuron

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

在 Amazon SageMaker 上使用 Optimum Neuron

Optimum Neuron 通过 Hugging Face 深度学习容器集成到 Amazon SageMaker 中,以支持 AWS 加速器,如 Inferentia2 和 Trainium1。这使您能够轻松地在 Amazon SageMaker 上训练和部署 🤗 Transformers 和 Diffusers 模型,并利用 AWS 加速器。

Hugging Face DLC 镜像预装了 Optimum Neuron 和用于编译模型的工具,以便在 Inferentia2 和 Trainium1 上进行高效推理。这使得部署大型 Transformer 模型变得简单且开箱即用。

以下是关于通过 Hugging Face DLC 使用 Optimum Neuron 在 Amazon SageMaker 上训练和部署模型的可用端到端教程列表。请按照端到端示例学习 Optimum Neuron 如何通过 Hugging Face DLC 镜像与 SageMaker 集成,以释放性能和成本优势。

在 Inferentia2 上部署嵌入模型以实现高效相似度搜索

关于如何在 Amazon SageMaker 上使用 AWS Inferentia2 部署文本嵌入模型 (BGE-Base) 以实现高效快速的嵌入生成的教程; 这篇文章展示了与 GPU 或 OpenAI 和 Amazon Bedrock 等服务相比,Inferentia2 如何成为高效、快速且经济高效的嵌入推理的绝佳选择。

在 AWS inferentia2 上使用 Amazon SageMaker 部署 Llama 2 7B

关于如何在 Amazon SageMaker 上使用 AWS Inferentia2 部署对话式 Llama 2 模型以实现低延迟推理的教程; 展示了如何利用 Inferentia2 和 SageMaker,仅需几行代码即可从模型训练到生产部署。

在 AWS inferentia2 上使用 Amazon SageMaker 部署 Stable Diffusion XL

关于如何在 Amazon SageMaker 上使用 Optimum Neuron 和 AWS Inferentia2 部署 Stable Diffusion XL 模型以实现高效的 1024x1024 图像生成的教程,每张图像耗时约 6 秒; 这篇文章展示了单个 `inf2.xlarge` 实例(每小时 0.99 美元)如何实现每分钟约 10 张图像的生成速度,这使得 Inferentia2 成为与 GPU 相比,高效、快速且经济高效的图像推理的绝佳选择。

在 AWS inferentia2 上使用 Amazon SageMaker 部署 BERT 进行文本分类

关于如何在 Amazon SageMaker 上使用 Optimum Neuron 和 AWS Inferentia2 优化和部署 BERT 模型以实现高效文本分类的教程,延迟为 4 毫秒; 这篇文章展示了单个 inf2.xlarge 实例(每小时 0.99 美元)如何在没有网络开销的情况下实现 116 次推理/秒和 500 次推理/秒,这使得 Inferentia2 成为与 GPU 相比,低延迟且经济高效的推理的绝佳选择。