推理端点(专用)文档
推理端点
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
推理端点
推理端点提供了一个安全的生产解决方案,可以轻松地将 Hub 上的任何 Transformers、Sentence-Transformers 和 Diffusers 模型部署在由 Hugging Face 管理的专用和自动扩缩基础设施上。
Hugging Face 端点构建于 Hugging Face 模型仓库。当创建端点时,该服务会创建镜像工件,这些工件可以从您选择的模型或自定义提供的容器镜像构建。镜像工件与 Hugging Face Hub 源代码仓库完全解耦,以确保最高的安全性和可靠性水平。
推理端点支持所有 Transformers、Sentence-Transformers 和 Diffusers 任务,以及 自定义任务,如说话人分离和扩散等 Transformers 尚不支持的任务。
此外,推理端点还允许您选择使用在外部服务上管理的自定义容器镜像,例如 Docker Hub、AWS ECR、Azure ACR 或 Google GCR。
文档和示例
指南
- 访问解决方案 (UI)
- 创建您的第一个端点
- 向端点发送请求
- 更新您的端点
- 高级设置(实例类型、自动扩缩、版本控制)
- 使用 AWS PrivateLink 创建私有端点
- 添加自定义依赖项
- 创建自定义推理处理程序
- 使用自定义容器镜像
- 访问和读取日志
- 访问和查看指标
- 更改组织或账户
- 部署 llama.cpp 容器