推理提供商文档
推理提供商
并获取增强的文档体验
开始使用
推理提供商


Hugging Face 推理提供商通过为多个无服务器推理提供商提供统一、灵活的接口,简化并统一了开发者访问和运行机器学习模型的方式。 这种新方法扩展了我们之前的无服务器推理 API,借助我们的推理合作伙伴,提供了更多模型、更高的性能和更好的可靠性。
要了解有关推理提供商发布的更多信息,请查看我们的发布公告博文。
为什么使用推理提供商?
推理提供商提供了一种快速简便的方法来探索数千个模型,以执行各种任务。 无论您是在试验 ML 功能还是构建新的应用程序,此 API 都能让您立即访问跨多个领域的高性能模型
- 文本生成: 包括大型语言模型和工具调用提示,生成并试验高质量的响应。
- 图像和视频生成: 轻松创建自定义图像,包括用于您自己风格的 LoRA。
- 文档嵌入: 使用 SOTA 嵌入构建搜索和检索系统。
- 经典 AI 任务: 用于文本分类、图像分类、语音识别等的即用型模型。
⚡ 快速且免费开始使用: 推理提供商提供免费套餐,并为 PRO 用户 以及 企业 Hub 组织 提供额外的赠送额度。
主要特性
- 🎯 一体化 API: 用于文本生成、图像生成、文档嵌入、NER、摘要、图像分类等的单个 API。
- 🔀 多提供商支持: 轻松运行来自顶级提供商(如 fal、Replicate、Sambanova、Together AI 等)的模型。
- 🚀 可扩展且可靠: 专为生产环境中的高可用性和低延迟性能而构建。
- 🔧 开发者友好: 简单的请求、快速的响应以及跨 Python 和 JavaScript 客户端的一致的开发者体验。
- 💰 经济高效: 不会对提供商费率收取额外加价。
推理 Playground
要快速开始使用聊天补全模型,请使用推理 Playground轻松测试和比较模型以及您的提示。

开始使用
您可以使用您喜欢的工具(如 Python、JavaScript 或 cURL)来使用推理提供商。 为了简化集成,我们同时提供 Python SDK (huggingface_hub) 和 JavaScript SDK (huggingface.js)。
在本节中,我们将演示一个使用 deepseek-ai/DeepSeek-V3-0324(一个对话式大型语言模型)的简单示例。 在此示例中,我们将使用 Novita AI 作为推理提供商。
身份验证
推理提供商需要在请求标头中传递用户令牌。 您可以通过在 Hugging Face 网站上注册并转到设置页面来生成令牌。 我们建议创建一个范围为“调用推理提供商”的精细化令牌。
有关用户令牌的更多详细信息,请查看本指南。
cURL
让我们从一个 cURL 命令开始,该命令突出显示原始 HTTP 请求。 您可以调整此请求以使用您选择的工具运行。
curl https://router.huggingface.co/novita/v3/openai/chat/completions \
-H "Authorization: Bearer $HF_TOKEN" \
-H 'Content-Type: application/json' \
-d '{
"messages": [
{
"role": "user",
"content": "How many G in huggingface?"
}
],
"model": "deepseek/deepseek-v3-0324",
"stream": false
}'
Python
在 Python 中,您可以使用 requests 库向 API 发送原始请求
import requests
API_URL = "https://router.huggingface.co/novita/v3/openai/chat/completions"
headers = {"Authorization": "Bearer hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"}
payload = {
"messages": [
{
"role": "user",
"content": "How many 'G's in 'huggingface'?"
}
],
"model": "deepseek/deepseek-v3-0324",
}
response = requests.post(API_URL, headers=headers, json=payload)
print(response.json()["choices"][0]["message"])
为方便起见,Python 库 huggingface_hub 提供了一个 InferenceClient,它可以为您处理推理。 确保使用 pip install huggingface_hub 安装它。
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="novita",
api_key="hf_xxxxxxxxxxxxxxxxxxxxxxxx",
)
completion = client.chat.completions.create(
model="deepseek-ai/DeepSeek-V3-0324",
messages=[
{
"role": "user",
"content": "How many 'G's in 'huggingface'?"
}
],
)
print(completion.choices[0].message)
JavaScript
在 JS 中,您可以使用 fetch 库向 API 发送原始请求
import fetch from "node-fetch";
const response = await fetch(
"https://router.huggingface.co/novita/v3/openai/chat/completions",
{
method: "POST",
headers: {
Authorization: `Bearer hf_xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx`,
"Content-Type": "application/json",
},
body: JSON.stringify({
provider: "novita",
model: "deepseek-ai/DeepSeek-V3-0324",
messages: [
{
role: "user",
content: "How many 'G's in 'huggingface'?",
},
],
}),
}
);
console.log(await response.json());
为方便起见,JS 库 @huggingface/inference 提供了一个 InferenceClient,它可以为您处理推理。 您可以使用 npm install @huggingface/inference 安装它。
import { InferenceClient } from "@huggingface/inference";
const client = new InferenceClient("hf_xxxxxxxxxxxxxxxxxxxxxxxx");
const chatCompletion = await client.chatCompletion({
provider: "novita",
model: "deepseek-ai/DeepSeek-V3-0324",
messages: [
{
role: "user",
content: "How many 'G's in 'huggingface'?",
},
],
});
console.log(chatCompletion.choices[0].message);
下一步
在本简介中,我们介绍了推理提供商的基础知识。 要了解有关此服务的更多信息,请查看我们的指南和 API 参考
- 定价和计费: 关于计费的所有信息。
- Hub 集成: 推理提供商如何与 Hub 集成?
- 注册成为推理提供商: 关于如何成为正式合作伙伴的所有信息。
- Hub API: 用于推理提供商的高级 API。
- API 参考: 了解有关参数和特定于任务的设置的更多信息。