推理端点（专用）

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

常见问题

一般问题

我可以在哪些区域部署推理端点？

推理端点目前在 AWS 的 us-east-1（弗吉尼亚北部）和 eu-west-1（爱尔兰）区域、Azure 的 eastus（弗吉尼亚）区域以及 GCP 的 us-east4（弗吉尼亚）区域可用。如果您需要在其他区域部署，请告知我们。

我可以访问我的端点正在运行的实例吗？

不可以，您无法访问托管您的端点的实例。但是，如果您缺少信息或需要更多关于端点运行机器的详细信息，请联系我们。

推理提供商和推理端点有什么区别？

推理提供商是一种轻松探索和评估模型的解决方案。它是一个单一且一致的 API 推理服务，可以访问托管大量 AI 模型的 Hugging Face 合作伙伴。推理端点是一种用于在托管基础设施上部署模型的服务。

运行我的端点需要多少费用？

专用端点根据您运行端点的计算小时数和相关的实例类型计费。未来我们可能会增加负载均衡器和 Private Link 的使用费用。

如何监控我部署的端点？

您目前可以通过推理端点网页应用程序监控您的端点，在该应用程序中您可以访问端点日志以及指标仪表板。

安全

传输到端点的数据是否加密？

是的，数据在传输过程中使用 TLS/SSL 加密。

我不小心泄露了我的令牌。我需要删除我的端点吗？

您可以在此处设置中使现有个人令牌失效并创建新令牌：https://huggingface.co/settings/tokens。请尽可能使用细粒度令牌！

我可以看到我的私有端点在我的 VPC 账户上运行吗？

不能，当创建私有端点（通过 AWS PrivateLink 连接到您的 VPC 的 Hugging Face 推理端点）时，您只能在您的 VPC 中看到该端点可用的 ENI。

配置

如何扩展我的部署？

端点会自动为您扩展。您可以设置最小和最大副本数量，系统将根据您配置的扩展策略自动扩展和缩减副本。我们建议阅读自动扩展部分以获取更多信息。

如果没有更多请求，我的端点还会继续运行吗？

除非您允许缩放至零，否则您的推理端点将始终以自动扩展配置中定义的最小副本数量保持可用/运行状态。

我想部署一个不在支持任务中的模型，这可能吗？

是的，您可以从Hugging Face Hub部署任何存储库，即使您的任务/模型/框架不受开箱即用支持。为此，我们建议设置自定义容器。

如果我想部署到未列出的不同实例类型，该怎么办？

如果您认为您的模型在未列出的不同实例类型上表现会更好，请联系我们。

我需要向我的端点添加自定义环境变量（默认或机密）。如何操作？

现在可以在 UI 或通过 API 完成。

{
  "model": {
    "image": {
      "huggingface": {
        "env": { "var1": "value" }
      }
    },
}

推理引擎

我可以批量运行推理吗？

在大多数情况下可以，但这取决于推理引擎。实际上，所有高性能推理引擎，如 vLLM、TGI、llama.cpp、SGLang 和 TEI 都支持批量处理，而推理工具包可能不支持。每个推理引擎也都有用于调整批量大小的配置，我们建议阅读文档以了解如何最好地调整配置以满足您的需求。

我正在为我的端点使用特定的推理引擎类型。是否有更多关于如何使用它的信息？

是的！请查看推理引擎部分，并查看引擎自己的文档。

调试

我从日志中看到我的端点正在运行，但状态卡在“初始化”

这通常意味着端口映射不正确。请确保您的应用程序正在监听端口 80，并且 Docker 容器正在外部公开端口 80。如果您正在部署自定义容器，可以更改这些值，但请务必使其保持一致。

我的端点在部署开始或扩展时出现 500 响应

请确认您在应用程序中实现了健康检查路由，当您的应用程序准备好处理请求时，该路由会返回状态码 200。否则，一旦容器启动，您的应用程序就会被认为是准备就绪的，这可能会导致 500 错误。您可以在端点的容器配置中配置健康检查路由。

您还可以将“X-Scale-Up-Timeout”标头添加到您的请求中。这意味着当端点进行扩展时，代理将保留请求，直到副本准备就绪，或者在指定的秒数后超时。例如，“X-Scale-Up-Timeout: 600”。

我看到在“实例配置”下有一个选项可以选择“下载模式”。这是什么意思？

部署端点时，您可以选择模型文件的下载模式，以帮助限制下载文件的数量。如果所选的下载模式不可行或与模型不兼容，系统将不允许更改模式。

我有时在生产环境中运行的端点上遇到 503 错误。我该怎么办？

为了帮助缓解推理端点（需要高可用性）上的服务中断，请确保至少使用 2 个副本，即最小副本数设置为 2。

< > 在 GitHub 上更新

←定价基础→