Hugging Face 在 Amazon SageMaker 上
深度学习容器
深度学习容器 (DLC) 是预安装了深度学习框架和库(如 🤗 Transformers、🤗 Datasets 和 🤗 Tokenizers)的 Docker 镜像。DLC 允许您立即开始训练模型,跳过从头开始构建和优化训练环境的复杂过程。我们的 DLC 经过全面测试和优化,适用于深度学习环境,无需您进行任何配置或维护。特别是,Hugging Face 推理 DLC 附带预先编写的服务堆栈,这大大降低了深度学习服务的技术门槛。
我们的 DLC 在 Amazon SageMaker 可用的所有地方都可用。尽管可以在没有 SageMaker Python SDK 的情况下使用 DLC,但使用 SageMaker 训练模型有很多优势
- 经济高效:训练实例仅在作业持续时间内处于活动状态。作业完成后,训练集群将停止,您将不再被计费。SageMaker 还支持 Spot 实例,这可以将成本降低高达 90%。
- 内置自动化:SageMaker 会自动将训练元数据和日志存储在无服务器管理的元数据存储中,并完全管理 S3 对数据集、检查点和模型工件的 I/O 操作。
- 多种安全机制:SageMaker 提供 静态加密、传输加密、虚拟私有云 连接以及 身份和访问管理 来保护您的数据和代码。
Hugging Face DLC 是开源的,并根据 Apache 2.0 许可。如果您有任何疑问,请随时访问我们的 社区论坛。对于高级支持,我们的 专家加速计划 将为您提供来自我们团队的直接专用支持。
功能和优势 🔥
Hugging Face DLC 使在 SageMaker 中训练 Transformer 模型比以往任何时候都更容易。以下是在训练和部署下一个机器学习模型时应考虑使用 Hugging Face DLC 的原因
只需一条命令
使用新的 Hugging Face DLC,只需一行代码即可训练最先进的基于 Transformers 的 NLP 模型。从多个 DLC 变体中选择,每个变体都针对 TensorFlow 和 PyTorch、单 GPU、单节点多 GPU 和多节点集群进行了优化。
加速从科学到生产的机器学习
除了 Hugging Face DLC 之外,我们还为 SageMaker Python SDK 创建了一个一流的 Hugging Face 扩展,以加快数据科学团队的速度,将设置和运行实验所需的时间从几天缩短到几分钟。
您可以将 Hugging Face DLC 与 SageMaker 的自动模型调整一起使用,以优化训练超参数并提高模型的准确性。
只需再添加一行代码即可部署您训练的模型以进行推理,或者从 模型集线器 中选择任何 10,000 多个公开可用的模型,并使用 SageMaker 部署它们。
轻松跟踪和比较 SageMaker Studio 的基于 Web 的集成开发环境 (IDE) 中的实验和训练工件。
内置性能
Hugging Face DLC 具有针对 PyTorch 和 TensorFlow 的内置性能优化功能,可以更快地训练 NLP 模型。DLC 还让您可以灵活地选择最符合工作负载价格/性能比的训练基础设施。
Hugging Face 训练 DLC 与 SageMaker 分布式训练库完全集成,可以使用 Amazon Elastic Compute Cloud 上最新的实例一代比以往更快地训练模型。
Hugging Face 推理 DLC 为您提供可快速扩展到您的 AWS 环境、内置监控和大量企业功能的生产就绪端点。
资源、文档和示例 📄
请查看我们发布的博文、视频、文档、示例笔记本和脚本,以获取更多帮助和有关 SageMaker 上 Hugging Face DLC 的更多上下文。
博客和视频
- AWS:拥抱 Hugging Face 自然语言处理
- 使用 Amazon SageMaker 轻松部署 Hugging Face 模型
- AWS 和 Hugging Face 合作简化和加速自然语言处理模型的采用
- 演练:端到端文本分类
- 在 Amazon SageMaker 上使用 Hugging Face 模型
- 分布式训练:使用 🤗 Transformers 和 Amazon SageMaker 训练 BART/T5 以进行摘要
- 将 Hugging Face Transformers 模型从 S3 部署到 Amazon SageMaker
- 将 Hugging Face Transformers 模型从模型集线器部署到 Amazon SageMaker
文档
- 在 Amazon SageMaker 上运行训练
- 将模型部署到 Amazon SageMaker
- 参考
- Amazon SageMaker Hugging Face 文档
- Hugging Face 的 Python SDK SageMaker 文档
- 深度学习容器
- SageMaker 的分布式数据并行库
- SageMaker 的分布式模型并行库
示例笔记本
- 所有笔记本
- Pytorch 入门
- Tensorflow 入门
- 分布式训练数据并行
- 分布式训练模型并行
- Spot 实例和继续训练
- SageMaker 指标
- 分布式训练数据并行 Tensorflow
- 分布式训练摘要
- 使用 Vision Transformer 进行图像分类
- 将 10000 多个 Hugging Face Transformers 中的一个部署到 Amazon SageMaker 进行推理
- 将来自 S3 的 Hugging Face Transformer 模型部署到 SageMaker 进行推理