推理端点(专用)文档

常见问题

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

常见问题

问:推理端点在哪些区域可用?

答:推理端点目前在 AWS 的 us-east-1(弗吉尼亚北部)和 eu-west-1(爱尔兰)、Azure 的 eastus(弗吉尼亚)以及 GCP 的 us-east4(弗吉尼亚)可用。如果您需要在其他区域部署,请告知我们。

问:我可以访问我的端点正在运行的实例吗?

答:不可以,您无法访问托管端点的实例。但是,如果您缺少信息或需要更多关于端点运行机器的见解,请联系我们。

问:我可以在我的 VPC 账户中看到我的私有端点吗?

答:不可以,在创建私有端点(通过 AWS/Azure PrivateLink 链接到您的 VPC 的 Hugging Face 推理端点)时,您只能看到端点可用的 VPC 中的 ENI。

问:我可以批量运行推理吗?

答:这取决于任务。支持的任务在后台使用 transformers、sentence-transformers 或 diffusers 管道。如果您的任务管道支持批处理,例如零样本分类,则支持批推理。在任何情况下,您都可以创建自己的推理处理程序并实现批处理。

问:如何扩展我的部署?

答:端点会自动为您扩展,您只需要提供最小副本目标和最大副本目标。然后系统将根据负载扩展您的端点。支持扩展到零,并提供多种计时选项。

问:如果不再处理请求,我的端点是否仍会运行?

答:是的,您的端点将始终保持可用/启动状态,并根据高级配置中定义的最小副本数运行。

问:我想部署一个不受支持的任务模型,这可能吗?

答:是的,您可以从Hugging Face Hub 部署任何仓库,如果您的任务/模型/框架不受原生支持,您可以创建您自己的推理处理器,然后将您的模型部署到端点。

问:运行我的端点需要多少钱?

答:专用端点的计费方式是根据正在运行的端点的计算小时数以及关联的实例类型。将来,我们可能会为负载均衡器和私有链接添加使用成本。

问:传输到端点的数据是否已加密?

答:是的,数据在传输过程中使用 TLS/SSL 进行加密。

问:如何降低端点的延迟?

答:有多种方法可以降低端点的延迟。一种是在靠近您的应用程序的区域部署您的端点以减少网络开销。另一种是在创建端点之前使用Hugging Face Optimum 优化您的模型。如果您需要帮助或对降低延迟有更多疑问,请联系我们。

问:如何监控我已部署的端点?

答:您目前可以通过🤗 推理端点 Web 应用程序 监控您的端点,您可以在其中访问端点的日志 以及指标仪表板。如果您需要编程访问权限或更多信息,请联系我们。

问:如果我想部署到未列出的其他实例类型,该怎么办?

答:如果您认为您的模型在与列出的实例类型不同的实例类型上运行效果会更好,请联系我们。

问:我不小心泄露了我的令牌。我需要删除我的端点吗?

答:您可以在此处设置中使现有的个人令牌失效并创建新的令牌:https://huggingface.co/settings/tokens。请注意,推理端点支持细粒度令牌 - 请考虑使用它们!

问:我需要向我的端点添加自定义环境变量(默认或机密)。如何操作?

答:现在可以通过 UI 或 API 完成。

{
  "model": {
    "image": {
      "huggingface": {
        "env": { "var1": "value" }
      }
    },
}

问:我正在为我的端点使用文本生成推理容器类型。是否有更多关于使用 TGI 的信息?

答:是的!请查看我们的TGI 文档 和这个关于 TGI 部署的 问:我在生产环境中运行的端点上偶尔遇到 503 错误。我该怎么办?

答:为了帮助降低需要高可用性的端点上的服务中断,请确保使用至少 2 个副本,即将最小副本数设置为 2。

问:专用端点和无服务器端点有什么区别?

答:推理 API(无服务器)是一种轻松探索和评估模型的解决方案。对于大量请求,或者如果您需要保证延迟/性能,请使用推理端点(专用)在专用的、完全托管的基础设施上轻松部署您的模型。

< > 在 GitHub 上更新