使用 NVIDIA DGX Cloud 上的 H100 GPU 轻松训练模型
更新:此服务已于 2025 年 4 月 10 日起弃用,不再可用。
今天,我们很高兴地宣布推出 Train on DGX Cloud,这是一项 Hugging Face Hub 上的新服务,面向企业版 Hub 组织开放。Train on DGX Cloud 使得使用 NVIDIA DGX Cloud 的加速计算基础设施轻松使用开放模型成为可能。我们共同构建了 Train on DGX Cloud,以便企业版 Hub 用户可以通过 Hugging Face Hub 内部的几次点击,轻松访问最新的 NVIDIA H100 Tensor Core GPU,对 Llama、Mistral 和 Stable Diffusion 等流行的生成式 AI 模型进行微调。

不再缺乏 GPU
这项新体验扩展了我们去年宣布的战略合作关系,旨在简化在 NVIDIA 加速计算平台上训练和部署开放生成式 AI 模型。开发者和组织面临的主要问题之一是 GPU 资源的稀缺性,以及编写、测试和调试 AI 模型训练脚本耗时耗力的工作。Train with DGX Cloud 提供了一个简单的解决方案来应对这些挑战,提供即时访问 NVIDIA GPU 的能力,首先是 NVIDIA DGX Cloud 上的 H100。此外,Train with DGX Cloud 提供了由 Hugging Face AutoTrain 和 Hugging Face Spaces 支持的简单无代码训练作业创建体验。
企业版 Hub 组织可以为其团队提供对强大 NVIDIA GPU 的即时访问,只需按训练作业所使用的计算实例的分钟数付费。
“Train on DGX Cloud 是训练生成式 AI 模型最简单、最快速、最易访问的方式,它结合了即时访问强大 GPU、按使用付费和无代码训练,”Hugging Face AutoTrain 的创建者 Abhishek Thakur 说。“这将彻底改变各地数据科学家的工作方式!”
NVIDIA DGX Cloud 副总裁 Alexis Bjorlin 表示:“今天推出的由 DGX Cloud 提供支持的 Hugging Face Autotrain 代表着简化 AI 模型训练的重要一步。通过将 NVIDIA 的云端 AI 超级计算机与 Hugging Face 的用户友好界面相结合,我们正在赋能组织加速其 AI 创新。”
工作原理
在 NVIDIA DGX Cloud 上训练 Hugging Face 模型从未如此简单。下面您将找到微调 Mistral 7B 的分步教程。
注意:您需要访问具有 Hugging Face Enterprise 订阅的组织才能使用 Train on DGX Cloud。
您可以在受支持的生成式 AI 模型的模型页面上找到 Train on DGX Cloud。它目前支持以下模型架构:Llama、Falcon、Mistral、Mixtral、T5、Gemma、Stable Diffusion 和 Stable Diffusion XL。

打开“训练”菜单,然后选择“NVIDIA DGX Cloud”——这将打开一个界面,您可以在其中选择您的企业组织。

然后,单击“创建新空间”。首次使用 Train on DGX Cloud 时,该服务将在您的组织内创建一个新的 Hugging Face Space,这样您就可以使用 AutoTrain 创建将在 NVIDIA DGX Cloud 上执行的训练作业。当您以后想创建另一个训练作业时,您将自动重定向回现有的 AutoTrain Space。
进入 AutoTrain Space 后,您可以通过配置硬件、基础模型、任务和训练参数来创建训练作业。

对于硬件,您可以选择 NVIDIA H100 GPU,提供 1x、2x、4x 和 8x 实例,或 L40S GPU(即将推出)。训练数据集必须直接上传到“上传训练文件”区域。目前支持 CSV 和 JSON 文件。请确保列映射正确,如下例所示。对于训练参数,您可以直接编辑右侧的 JSON 配置,例如,将 epoch 数从 3 更改为 2。
设置好一切后,您可以点击“开始训练”开始训练。AutoTrain 现在将验证您的数据集,并要求您确认训练。

您可以通过打开 Space 的“日志”来监控您的训练。

训练完成后,您的微调模型将上传到 Hugging Face Hub 上您所选命名空间中的一个新私有仓库。
Train on DGX Cloud 现已面向所有企业版 Hub 组织推出!请尝试使用该服务,并向我们提供您的反馈!
Train on DGX Cloud 的定价
Train on DGX Cloud 的使用费用根据训练作业期间使用的 GPU 实例分钟数计费。目前,H100 实例的训练作业价格为每 GPU 小时 8.25 美元,L40S 实例的价格为每 GPU 小时 2.75 美元。使用费用在作业完成后计入您的企业版 Hub 组织当前的月度账单周期。您可以随时在您的企业版 Hub 组织的计费设置中查看当前和过去的使用情况。
NVIDIA GPU | GPU 显存 | 按需价格/小时 |
NVIDIA L40S | 48GB | $2.75 |
NVIDIA H100 | 80 GB | $8.25 |
例如,在单个 NVIDIA L40S 上对 1500 个样本的 Mistral 7B 进行微调大约需要 10 分钟,费用约为 0.45 美元。
我们才刚刚开始
我们很高兴能与 NVIDIA 合作,在开放科学、开源和云服务领域实现加速机器学习的民主化。
我们通过 BigCode 在开放科学方面的合作,使得 StarCoder 2 15B 的训练成为可能,这是一个完全开放、最先进的代码 LLM,在 600 多种语言上进行了训练。
我们在开源方面的合作正在推动新的 optimum-nvidia 库,加速 LLM 在最新 NVIDIA GPU 上的推理,并已经实现了 Llama 2 每秒 1200 个 token 的速度。
我们今天在云服务方面的合作创建了 Train on DGX Cloud。我们还在与 NVIDIA 合作,优化推理并使加速计算对 Hugging Face 社区更易于访问,利用我们在 NVIDIA TensorRT-LLM 和 optimum-nvidia 上的合作。此外,Hugging Face 上一些最受欢迎的开放模型将支持 NVIDIA NIM 微服务,该服务已于今天在 GTC 上发布。
对于本周参加 GTC 的朋友们,请务必观看 3 月 20 日星期三太平洋时间下午 3 点的 S63149 场次,届时 Jeff 将引导您了解 Train on DGX Cloud 等内容。此外,不要错过下一期 Hugging Cast,我们将在太平洋时间 3 月 21 日星期四上午 9 点/东部时间中午 12 点/欧洲中部时间下午 5 点进行 Train on DGX Cloud 的现场演示,您可以直接向 Abhishek 和 Rafael 提问——在此观看录播。