推理端点(专用)文档
基础
并获得增强的文档体验
开始使用
基础
推理端点仪表板是管理、监控和部署跨多个组织和账户的推理端点的中心界面。用户可以在组织之间切换、查看端点状态、管理配额并访问部署配置。您可以通过登录 endpoints.huggingface.co 访问仪表板
管理端点
创建新端点
点击顶部区域的“+ 新建”按钮,创建一个新的端点部署。这将带您进入模型目录,该目录提供 100 多个预配置模型,可作为推理端点进行部署。您可以使用此功能直接浏览、筛选和部署模型。
如果您在目录中找不到合适的模型,可以点击“从 Hugging Face 部署”按钮,该按钮允许您从任何 Hugging Face 仓库部署。
之后,您将被重定向到配置页面。您可以在此处详细了解所有配置选项。
端点状态
端点可以处于以下几种状态之一:
- 运行中:端点已准备好服务请求
- 初始化中:端点正在启动
- 已暂停:端点已停止,计入您的配额
- 已缩减到零:端点处于空闲状态,不消耗计算资源
- 失败:端点遇到错误,无法运行
管理现有端点
端点详细信息页面提供信息并允许您控制单个端点的配置。通过点击主端点列表中的任意端点即可访问此视图。
端点名称及其当前状态会显示出来。您可以暂停正在运行的端点或唤醒已缩减到零的端点。
该页面显示了每个端点可用的配置选项。您可以在配置部分找到所有选项的更深入的详细介绍。
使用仪表板
查看端点信息
端点表显示每个部署的关键信息。点击“编辑列”可显示或隐藏特定信息列。可用列包括状态、任务、实例、供应商、容器、访问、标签、URL、创建时间和更新时间戳。
筛选和搜索
使用搜索栏按名称、提供商、任务或标签筛选端点。状态下拉菜单允许按特定端点状态进行筛选。
账户管理
通过右上角的下拉菜单访问账户设置。这提供了组织切换、账单信息和访问令牌管理。
配额
配额部分显示您在不同云提供商和硬件类型下的当前资源使用情况和限制。访问此视图可以监控消耗并根据需要请求额外容量。
请注意:
- 暂停的端点不计入“已用”配额。
- 已缩放到零的端点将被计为“已用”配额——如果您想解锁此配额,只需暂停已缩放到零的端点即可。
请求额外配额
当接近配额阈值时,使用“请求更多”按钮提交增加限制的请求。这允许您将推理部署扩展到当前分配之外。或点击下面的按钮
请求更多审计日志
审计日志部分提供您推理端点上执行的所有操作的时间顺序记录。您可以使用此功能跟踪更改、排查问题并维护部署的安全监督。
使用“所有端点”下拉菜单按特定端点实例筛选日志。这使您可以专注于特定部署的活动。
日志条目结构
每个审计日志条目包含:
- 用户头像和姓名
- 操作类型:执行的操作类型(例如,已恢复、已更新等)
- 端点名称
- 时间戳
- 操作详情:
- 实例更改:例如硬件扩展修改
- 配置更新:参数调整
- 状态更改:操作状态修改
- 请求元数据:用于故障排除的技术细节
- IP 地址:请求的源 IP
- X-Request-Id:用于跟踪 API 调用的唯一标识符