Inference Endpoints (dedicated) 文档
常见问题
并获得增强的文档体验
开始使用
常见问题
问:Inference Endpoints 在哪些地区可用?
答:Inference Endpoints 目前在 AWS 的 us-east-1(弗吉尼亚北部)和 eu-west-1(爱尔兰)、Azure 的 eastus(弗吉尼亚)以及 GCP 的 us-east4(弗吉尼亚)区域可用。如果您需要在其他区域部署,请告知我们。
问:我可以访问我的 Endpoint 正在运行的实例吗?
答:不可以,您无法访问托管您 Endpoint 的实例。但是,如果您缺少信息或需要更多关于 Endpoint 运行机器的见解,请联系我们。
问:我可以在我的 VPC 账户中看到我的私有 Endpoint 运行吗?
答:不可以,当创建私有 Endpoint(通过 AWS PrivateLink 链接到您 VPC 的 Hugging Face Inference Endpoint)时,您只能在您的 VPC 中看到 Endpoint 可用的 ENI。
问:我可以批量运行推理吗?
答:这取决于任务。支持的任务在底层使用了 transformers、sentence-transformers 或 diffusers pipelines。如果您的任务 pipeline 支持批处理,例如 Zero-Shot Classification,则支持批量推理。在任何情况下,您始终可以创建自己的推理处理程序并实现批处理。
问:如何扩展我的部署?
答:Endpoints 为您自动扩展,您唯一需要提供的信息是最小副本目标和最大副本目标。然后系统将根据负载扩展您的 Endpoint。支持缩放到零,并提供多种定时选项。
问:如果没有更多请求处理,我的 Endpoint 还会继续运行吗?
答:是的,您的 Endpoint 将始终保持可用/运行状态,副本数量为您在高级配置中定义的最小副本数。
问:我想部署一个不在支持任务中的模型,这可能吗?
答:是的,您可以从 Hugging Face Hub 部署任何仓库,如果您的任务/模型/框架不受开箱即用支持,您可以创建您自己的推理处理程序,然后将您的模型部署到 Endpoint。
问:运行我的 Endpoint 需要多少费用?
答:Dedicated Endpoints 的计费基于您运行的 Endpoints 的计算小时数以及相关的实例类型。未来我们可能会增加负载均衡器和 Private Links 的使用成本。
问:传输到 Endpoint 的数据是否加密?
答:是的,数据在传输过程中使用 TLS/SSL 加密。
问:如何监控我部署的 Endpoint?
答:您目前可以通过 🤗 Inference Endpoints Web 应用程序监控您的 Endpoint,您可以在其中访问您的 Endpoints 的日志以及指标仪表板。
问:如果我想部署到未列出的其他实例类型怎么办?
答:如果您认为您的模型在与列出的实例类型不同的实例类型上会表现更好,请联系我们。
问:我不小心泄露了我的令牌。我需要删除我的 endpoint 吗?
答:您可以在此处使现有个人令牌失效并创建新令牌:https://huggingface.co/settings/tokens。请尽可能使用细粒度令牌!
问:我需要向我的 endpoint 添加自定义环境变量(默认或密钥)。我该怎么做?
答:现在可以在 UI 或通过 API 完成此操作
{
"model": {
"image": {
"huggingface": {
"env": { "var1": "value" }
}
},
}
问:我的 Endpoint 正在使用 text-generation-inference 容器类型。是否有关于使用 TGI 的更多信息?
答:是的!请查看我们的 TGI 文档以及关于 TGI 部署的这个视频。
问:我在生产环境中运行的 endpoint 上有时会遇到 503 错误。我该怎么办?
答:为了帮助缓解需要高可用性的 Endpoint 上的服务中断,请确保使用至少 2 个副本,即将最小副本数设置为 2。
问:Dedicated 和 Serverless Endpoints 之间有什么区别?
答:Inference API (Serverless) 是一个用于轻松探索和评估模型的解决方案。对于大量请求,或者如果您需要保证延迟/性能,请使用Inference Endpoints (Dedicated),以便在专用、完全托管的基础设施上轻松部署您的模型。
问:我从日志中看到我的 endpoint 正在运行,但状态卡在“正在初始化”
答:这通常意味着端口映射不正确。确保您的应用程序正在监听端口 80,并且 Docker 容器正在外部暴露端口 80。如果您正在部署自定义容器,您可以更改这些值,但请确保它们保持一致。
问:在我的 endpoint 部署开始时或发生扩展时,我收到 500 响应
答:确认您在您的应用程序中实现了一个健康检查路由,当您的应用程序准备好服务请求时,该路由返回状态代码 200。否则,您的应用程序将在容器启动后立即被视为准备就绪,这可能会导致 500 错误。您可以在 endpoint 的自定义设置中配置健康检查路由。
问:我看到实例配置下有一个选项可以选择下载模式。这是什么意思?
答:您可以选择在部署 Endpoint 时模型文件的下载模式,以帮助限制下载文件的量。如果选择的下载模式不可行或与模型不兼容,系统将不允许更改模式。
< > 在 GitHub 上更新