欢迎来到 Hub 上的推理服务提供商 🔥
今天,我们将在 Hub 的模型页面上直接集成四家出色的无服务器推理提供商——**fal、Replicate、Sambanova、Together AI**。它们还无缝集成到我们的客户端 SDK(适用于 JS 和 Python)中,使得探索您最喜欢的提供商上运行的各种模型的无服务器推理变得前所未有的容易。

我们长期以来一直在 Hub 上托管无服务器推理 API(我们在 2020 年夏天推出了 v1——哇,时间过得真快🤯)。虽然这使得轻松探索和原型设计成为可能,但我们已将核心价值主张细化为与社区协作、存储、版本控制和分发大型数据集和模型。与此同时,无服务器提供商蓬勃发展,Hugging Face 是时候通过一组出色的提供商提供对无服务器推理的轻松统一访问了。
正如我们与 AWS、Nvidia 等优秀合作伙伴合作,通过模型页面的“部署”按钮提供专用部署选项一样,与下一代无服务器推理提供商合作以实现以模型为中心的无服务器推理是很自然的。
以下是这将实现的功能,以 DeepSeek-ai/DeepSeek-R1 为及时示例,该模型在过去几天内声名鹊起 🔥
SambaNova 联合创始人兼首席执行官 Rodrigo Liang:“我们很高兴与 Hugging Face 合作,以加速其推理 API。Hugging Face 开发者现在可以在各种最佳开源模型上获得更快的推理速度。”
Replicate 创始设计师 Zeke Sikelianos:“Hugging Face 是开源模型权重的实际所在地,并且一直是使 AI 更易于世界访问的关键参与者。我们在 Replicate 内部将 Hugging Face 用作我们首选的权重注册表,我们很荣幸能成为本次发布中首批推理提供商之一。”
这仅仅是个开始,我们将在未来几周内与社区一起在此基础上继续发展!
工作原理
在网站 UI 中
- 在您的用户帐户设置中,您可以
- 为您已注册的提供商设置您自己的 API 密钥。否则,您仍然可以使用它们——您的请求将通过 HF 路由。
- 按偏好顺序排列提供商。这适用于模型页面中的小部件和代码片段。

- 正如我们提到的,调用推理 API 有两种模式
- 自定义密钥(使用相应推理提供商的您自己的 API 密钥,直接调用推理提供商);或
- 通过 HF 路由(在这种情况下,您不需要提供商的令牌,费用将直接计入您的 HF 帐户,而不是提供商的帐户)

- 模型页面会展示第三方推理服务提供商(与当前模型兼容的,并按用户偏好排序)

从客户端 SDK
从 Python 使用 huggingface_hub
以下示例展示了如何使用 Together AI 作为推理提供商来使用 DeepSeek-R1。您可以使用 Hugging Face 令牌 通过 Hugging Face 进行自动路由,或者如果您有的话,可以使用您自己的 Together AI API 密钥。
安装 `huggingface_hub` v0.28.0 或更高版本(发布说明)。
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="together",
api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)
messages = [
{
"role": "user",
"content": "What is the capital of France?"
}
]
completion = client.chat.completions.create(
model="deepseek-ai/DeepSeek-R1",
messages=messages,
max_tokens=500
)
print(completion.choices[0].message)
注意:您也可以使用 OpenAI 客户端库来调用推理提供商;请参阅此处 DeepSeek 模型的示例。
以下是如何使用在 fal.ai 上运行的 FLUX.1-dev 从文本提示生成图像:
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="fal-ai",
api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)
# output is a PIL.Image object
image = client.text_to_image(
"Labrador in the style of Vermeer",
model="black-forest-labs/FLUX.1-dev"
)
要切换到不同的提供商,您只需更改提供商名称,其他所有内容都保持不变。
from huggingface_hub import InferenceClient
client = InferenceClient(
- provider="fal-ai",
+ provider="replicate",
api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)
从 JS 使用 @huggingface/inference
import { HfInference } from "@huggingface/inference";
const client = new HfInference("xxxxxxxxxxxxxxxxxxxxxxxx");
const chatCompletion = await client.chatCompletion({
model: "deepseek-ai/DeepSeek-R1",
messages: [
{
role: "user",
content: "What is the capital of France?"
}
],
provider: "together",
max_tokens: 500
});
console.log(chatCompletion.choices[0].message);
来自 HTTP 调用
我们将路由代理直接暴露在 huggingface.co 域名下,因此您可以直接调用它,这对于兼容 OpenAI 的 API 非常有用。您可以将 URL 简单地替换为基本 URL:`https://router.huggingface.co/{:provider}`。
以下是您如何通过 cURL 调用使用 Sambanova 作为推理提供商的 Llama-3.3-70B-Instruct。
curl 'https://router.huggingface.co/sambanova/v1/chat/completions' \
-H 'Authorization: Bearer xxxxxxxxxxxxxxxxxxxxxxxx' \
-H 'Content-Type: application/json' \
--data '{
"model": "Llama-3.3-70B-Instruct",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
],
"max_tokens": 500,
"stream": false
}'
账单
对于直接请求,即当您使用推理提供商的密钥时,您将由相应的提供商计费。例如,如果您使用 Together AI 密钥,您将在 Together AI 账户上计费。
对于路由请求,即当您通过中心进行身份验证时,您只需支付标准提供商 API 费率。我们不收取额外费用,我们只是直接转嫁提供商成本。(将来,我们可能会与提供商合作伙伴建立收入分成协议。)
重要提示 ‼️ PRO 用户每月可获得价值 2 美元的推理额度。您可以在不同的提供商之间使用这些额度。🔥
订阅 Hugging Face PRO 计划,即可获得推理额度、ZeroGPU、空间开发模式、20 倍更高的限制以及更多功能。
我们还为已登录的免费用户提供带有少量配额的免费推理,但如果可以的话,请升级到 PRO!
反馈与下一步
我们期待您的反馈!您可以使用此中心讨论:https://huggingface.co/spaces/huggingface/HuggingDiscussions/discussions/49