推理提供商文档
定价与计费
并获得增强的文档体验
开始使用
定价与计费
通过集中、透明、按需付费的定价方式,访问来自领先 AI 推理提供商的 200 多个模型。无需基础设施管理,只需为您使用的付费,Hugging Face 不收取任何额外费用。
免费积分助您入门
每位 Hugging Face 用户每月都会收到积分,用于试用推理提供商服务。
账户类型 | 每月积分 | 额外使用量(按需付费) |
---|---|---|
免费用户 | 0.10 美元,可能会有变动 | 否 |
PRO 用户 | $2.00 | 是的 |
团队或企业组织 | 每个席位 2.00 美元 | 是的 |
当您通过 Hugging Face 路由请求时,您的每月积分将自动应用。对于团队或企业组织,积分在所有成员之间共享。
计费方式:选择您的方案
推理提供商在计费方面提供了灵活性。提前了解这些选项有助于您选择最适合您需求的方案。
特性 | 通过 Hugging Face 路由 | 自定义提供商密钥 |
---|---|---|
工作原理 | 您的请求通过 HF 路由到提供商 | 您在 HF 设置中设置自定义提供商密钥 |
计费 | 在您的 HF 账户上按需付费 | 由提供商直接计费 |
每月积分 | ✅ 是 - 积分适用于符合条件的提供商 | ❌ 否 - 积分不适用 |
是否需要提供商账户 | ❌ 否 - 我们处理一切 | ✅ 是 - 您需要提供商账户 |
最适合 | 简单、实验、集中计费 | 更多计费控制,使用非集成提供商 |
集成 | SDK、Playground、小部件、Data AI Studio | SDK、Playground、小部件、Data AI Studio |
我应该选择哪个选项?
- 如果您想要简单便捷并使用每月积分,请从“通过 Hugging Face 路由”开始。
- 如果您需要特定提供商功能或您一直使用同一提供商,请使用自定义提供商密钥。
按需付费详情
要享受企业 Hub 包含的积分,您需要在执行推理请求时明确指定要计费的组织。有关更多详细信息,请参阅下面的组织计费部分。
PRO 用户和企业 Hub 组织在用完每月积分后仍可继续使用 API。这确保了生产工作负载的模型访问不间断。
Hugging Face 向您收取与提供商相同的费率,不收取任何额外费用。我们直接将提供商成本转嫁给您。
您可以随时在您的计费页面上跟踪您的支出。
Hugging Face 计费与自定义提供商密钥(详细比较)
以上文档假设您正在向外部提供商发出路由请求。实际上,有 2 种不同的方式来运行推理,每种方式都有独特的计费影响。
Hugging Face 路由请求:这是使用推理提供商的默认方法。只需使用 JavaScript 或 Python
InferenceClient
,或使用您的 Hugging Face 用户访问令牌发出原始 HTTP 请求。您的请求会自动通过 Hugging Face 路由到提供商的平台。无需单独的提供商账户,Hugging Face 直接管理计费。这种方法使您可以在提供商之间无缝切换,无需额外设置。自定义提供商密钥:您可以携带自己的提供商密钥与推理提供商一起使用。如果您已经拥有提供商账户并希望将其与推理提供商一起使用,这将非常有用。Hugging Face 不会向您收取调用费用。
以下表格总结了我们目前所了解的情况。
HF 路由 | 计费方 | 是否包含免费套餐 | 按需付费 | 集成 | |
---|---|---|---|---|---|
路由请求 | 是 | Hugging Face | 是 | 仅适用于 PRO 用户和集成提供商 | SDK、Playground、小部件、Data AI Studio |
自定义提供商密钥 | 是 | 提供商 | 否 | 是 | SDK、Playground、小部件、Data AI Studio |
您可以在 Hub 上的设置页面中设置您的自定义提供商密钥,或者在使用 JavaScript 或 Python SDK 时在 InferenceClient
中设置。使用自定义密钥发出路由请求时,您的代码保持不变——您仍然可以传递您的 Hugging Face 用户访问令牌。Hugging Face 将在路由请求时自动交换身份验证。
HF 推理成本
您可能已经注意到,您可以选择使用 "hf-inference"
提供商。在推理提供商出现之前,这项服务曾被称为“推理 API(无服务器)”。从用户的角度来看,使用 HF 推理与使用任何其他提供商相同。在免费套餐积分用完后,您将根据计算时间 x 底层硬件价格对每个推理请求收费。
例如,一个对 black-forest-labs/FLUX.1-dev 的请求,如果在 GPU 机器上完成需要 10 秒,而该 GPU 机器每秒运行成本为 0.00012 美元,则将收取 0.0012 美元。
截至 2025 年 7 月,hf-inference 主要侧重于 CPU 推理(例如,嵌入、文本排名、文本分类,或具有历史重要性的小型 LLM,如 BERT 或 GPT-2)。
团队和企业组织的计费
对于企业 Hub 组织,可以集中管理所有用户的计费。每个用户仍然使用自己的用户访问令牌,但请求将计入您的组织。这可以通过在 HTTP 请求中将 "X-HF-Bill-To: my-org-name"
作为标头传递来实现。
企业 Hub 组织会根据订阅中的席位数量获得免费使用积分池。推理提供商的使用情况可以在组织的计费页面上跟踪。企业 Hub 组织管理员还可以在组织的设置中设置支出限制并禁用一组推理提供商。


要向您的组织计费,请在初始化客户端时使用 bill_to
参数。
from huggingface_hub import InferenceClient
client = InferenceClient(bill_to="my-org-name")
completion = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V3-0324",
messages=[
{
"role": "user",
"content": "How many 'G's in 'huggingface'?"
}
],
)
print(completion.choices[0].message)
同样在 JavaScript 中
如果您正在使用 JavaScript InferenceClient
,您可以在客户端级别设置 billTo
属性以向您的组织计费。
import { InferenceClient } from "@huggingface/inference";
const client = new InferenceClient(process.env.HF_TOKEN, { billTo: "my-org-name" });
const completion = await client.chat.completions.create({
model: "deepseek-ai/DeepSeek-V3-0324",
messages: [
{
role: "user",
content: "How many 'G's in 'huggingface'?",
},
],
});
console.log(completion.choices[0].message.content);