推理端点
推理端点提供了一个安全的生产解决方案,可以轻松地将任何来自中心的转换器、句子转换器和扩散器模型部署到 Hugging Face 管理的专用和自动缩放基础设施上。
Hugging Face 端点基于 Hugging Face 模型库 构建。当创建端点时,服务会创建镜像工件,这些工件要么从您选择的模型构建,要么从您提供的自定义容器镜像构建。镜像工件与 Hugging Face 中心源代码库完全解耦,以确保最高的安全性和可靠性水平。
推理端点支持所有 转换器、句子转换器和扩散器任务,以及 转换器尚不支持的自定义任务,例如说话人识别和扩散。
此外,推理端点还允许您使用在外部服务上管理的自定义容器镜像,例如 Docker Hub、AWS ECR、Azure ACR 或 Google GCR。
文档和示例
指南
- 访问解决方案(UI)
- 创建您的第一个端点
- 向端点发送请求
- 更新您的端点
- 高级设置(实例类型、自动缩放、版本控制)
- 使用 AWS PrivateLink 创建私有端点
- 添加自定义依赖项
- 创建自定义推理处理程序
- 使用自定义容器镜像
- 访问和读取日志
- 访问和查看指标
- 更改组织或帐户
- 部署 llama.cpp 容器