Hugging Face 和 NVIDIA NIM 的无服务器推理
更新:此服务已于 2025 年 4 月 10 日起弃用且不再可用。作为替代方案,您应考虑推理提供商
今天,我们很高兴地宣布推出 Hugging Face NVIDIA NIM API(无服务器),这是 Hugging Face Hub 上的一项新服务,可供企业版 Hub 组织使用。这项新服务使得使用 NVIDIA DGX Cloud 加速计算平台上的开放模型进行推理变得容易,该平台适用于推理服务。我们构建此解决方案是为了让企业版 Hub 用户能够以无服务器方式轻松访问最新的 NVIDIA AI 技术,使用标准化 API 和 Hugging Face Hub 中的几行代码,在流行的大型生成式 AI 模型(包括 Llama 和 Mistral)上运行推理。

NVIDIA NIM 支持的无服务器推理
这项新体验建立在我们与 NVIDIA 的合作基础上,旨在简化在 NVIDIA 加速计算平台上访问和使用开放式生成式 AI 模型。开发人员和组织面临的主要挑战之一是基础设施的前期成本以及优化 LLM 推理工作负载的复杂性。通过 Hugging Face NVIDIA NIM API(无服务器),我们为这些挑战提供了一个简单的解决方案,提供了对针对 NVIDIA 基础设施优化的最先进开放式生成式 AI 模型的即时访问,以及用于运行推理的简单 API。按使用付费的定价模式确保您只为使用的请求时间付费,使其成为各种规模企业的经济选择。
NVIDIA NIM API(无服务器)补充了 Hugging Face 上已有的 AI 训练服务 Train on DGX Cloud。
工作原理
使用 Hugging Face 模型运行无服务器推理从未如此简单。以下是入门的分步指南:
注意:您需要访问具有 Hugging Face 企业版 Hub 订阅的组织才能运行推理。
在开始之前,请确保您满足以下要求:
- 您是企业版 Hub 组织的成员。
- 您已为您的组织创建了细粒度令牌。按照以下步骤创建您的令牌。
创建细粒度令牌
细粒度令牌允许用户创建具有特定权限的令牌,以实现对资源和命名空间的精确访问控制。首先,前往Hugging Face 访问令牌并点击“创建新令牌”,然后选择“细粒度”。

输入“令牌名称”,并在“组织权限”中选择您的企业组织作为范围,然后点击“创建令牌”。您无需选择任何其他范围。

现在,请务必保存此令牌值,以便以后验证您的请求。
查找您的 NIM
您可以在支持的生成式 AI 模型的模型页面上找到“NVIDIA NIM API(无服务器)”。您可以在此NVIDIA NIM 集合和定价部分中找到所有支持的模型。
我们将使用 meta-llama/Meta-Llama-3-8B-Instruct
。访问 meta-llama/Meta-Llama-3-8B-Instruct 模型卡,打开“部署”菜单,然后选择“NVIDIA NIM API(无服务器)”——这将打开一个带有预生成 Python、Javascript 或 Curl 代码片段的界面。

发送您的请求
NVIDIA NIM API(无服务器)已标准化为 OpenAI API。这允许您使用 openai
SDK 进行推理。将 YOUR_FINE_GRAINED_TOKEN_HERE
替换为您的细粒度令牌,即可运行推理。
from openai import OpenAI
client = OpenAI(
base_url="https://huggingface.co/api/integrations/dgx/v1",
api_key="YOUR_FINE_GRAINED_TOKEN_HERE"
)
chat_completion = client.chat.completions.create(
model="meta-llama/Meta-Llama-3-8B-Instruct",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Count to 500"}
],
stream=True,
max_tokens=1024
)
# Iterate and print stream
for message in chat_completion:
print(message.choices[0].delta.content, end='')
恭喜!🎉 您现在可以使用开放模型开始构建您的生成式 AI 应用程序了。🔥
NVIDIA NIM API(无服务器)目前仅支持 chat.completions.create
和 models.list
API。我们正在努力扩展此功能,同时添加更多模型。models.list
可用于检查当前可用于推理的模型。
models = client.models.list()
for m in models.data:
print(m.id)
支持的模型和定价
Hugging Face NVIDIA NIM API(无服务器)的使用按每次请求的计算时间计费。我们专门使用 NVIDIA H100 Tensor Core GPU,价格为每小时 8.25 美元。为了更容易理解每次请求的定价,我们可以将其转换为每秒的成本。
每小时 8.25 美元 = 每秒 0.0023 美元(四舍五入到小数点后 4 位)
每次请求的总成本将取决于模型大小、所需的 GPU 数量以及处理请求所需的时间。以下是当前模型产品、其 GPU 要求、典型响应时间以及每次请求的估计成本的细分:
模型 ID | NVIDIA H100 GPU 数量 | 典型响应时间(500 个输入令牌,100 个输出令牌) | 每次请求的估计成本 |
meta-llama/Meta-Llama-3-8B-Instruct | 1 | 1 秒 | $0.0023 |
meta-llama/Meta-Llama-3-70B-Instruct | 4 | 2 秒 | $0.0184 |
meta-llama/Meta-Llama-3.1-405B-Instruct-FP8 | 8 | 5 秒 | $0.0917 |
使用费用将计入您的企业版 Hub 组织当前的每月账单周期。您可以随时在企业版 Hub 组织的账单设置中查看当前和过去的使用情况。
支持的模型
使用 NVIDIA TensorRT-LLM 加速 AI 推理
我们很高兴继续与 NVIDIA 合作,推动 AI 推理性能和可访问性的边界。我们正在进行的工作的一个关键重点是将 NVIDIA TensorRT-LLM 库集成到 Hugging Face 的文本生成推理(TGI)框架中。
我们将在不久的将来分享更多关于将 TGI 与 NVIDIA TensorRT-LLM 结合使用的详细信息、基准和最佳实践。请继续关注更多令人兴奋的进展,我们将继续扩大与 NVIDIA 的合作,为全球开发人员和组织带来更强大的 AI 能力!