定价
使用 🤗 推理端点,轻松在专用基础设施上部署机器学习模型。创建端点时,您可以选择要部署的实例类型并根据每小时费率扩展您的模型。🤗 推理端点可供具有有效订阅和已在档案中保存信用卡的 Hugging Face 帐户访问。在订阅期结束时,将向用户或组织帐户收取已成功部署的端点(已准备好提供服务)处于 *初始化* 和 *运行* 状态期间使用的计算资源费用。
您可以在下面找到 🤗 推理端点所有可用实例的每小时定价,以及一些成本计算示例。虽然价格以小时为单位显示,但实际成本按分钟计算。
CPU 实例
下表显示了当前可用的 CPU 实例及其每小时定价。如果应用程序中无法选择实例类型,则需要申请配额才能使用它。
提供商 | 实例类型 | 实例大小 | 每小时费率 | vCPU | 内存 | 架构 |
---|---|---|---|---|---|---|
aws | intel-icl | x1 | $0.032 | 1 | 2 GB | 英特尔 Ice Lake (即将完全弃用) |
aws | intel-icl | x2 | $0.064 | 2 | 4 GB | 英特尔 Ice Lake (即将完全弃用) |
aws | intel-icl | x4 | $0.128 | 4 | 8 GB | 英特尔 Ice Lake (即将完全弃用) |
aws | intel-icl | x8 | $0.256 | 8 | 16 GB | 英特尔 Ice Lake (即将完全弃用) |
aws | intel-spr | x1 | $0.033 | 1 | 2 GB | 英特尔 Sapphire Rapids |
aws | intel-spr | x2 | $0.067 | 2 | 4 GB | 英特尔 Sapphire Rapids |
aws | intel-spr | x4 | $0.134 | 4 | 8 GB | 英特尔 Sapphire Rapids |
aws | intel-spr | x8 | $0.268 | 8 | 16 GB | 英特尔 Sapphire Rapids |
azure | intel-xeon | x1 | $0.060 | 1 | 2 GB | 英特尔至强 |
azure | intel-xeon | x2 | $0.120 | 2 | 4 GB | 英特尔至强 |
azure | intel-xeon | x4 | $0.240 | 4 | 8 GB | 英特尔至强 |
azure | intel-xeon | x8 | $0.480 | 8 | 16 GB | 英特尔至强 |
gcp | intel-spr | x1 | $0.070 | 1 | 2 GB | 英特尔 Sapphire Rapids |
gcp | intel-spr | x2 | $0.140 | 2 | 4 GB | 英特尔 Sapphire Rapids |
gcp | intel-spr | x4 | $0.280 | 4 | 8 GB | 英特尔 Sapphire Rapids |
gcp | intel-spr | x8 | $0.560 | 8 | 16 GB | 英特尔 Sapphire Rapids |
GPU 实例
下表显示了当前可用的 GPU 实例及其每小时定价。如果应用程序中无法选择实例类型,则需要申请配额才能使用它。
提供商 | 实例类型 | 实例大小 | 每小时费率 | GPU | 内存 | 架构 |
---|---|---|---|---|---|---|
aws | nvidia-a10g | x1 | $1 | 1 | 24 GB | NVIDIA A10G |
aws | nvidia-t4 | x1 | $0.5 | 1 | 14 GB | NVIDIA T4 |
aws | nvidia-t4 | x4 | $3 | 4 | 56 GB | NVIDIA T4 |
aws | nvidia-l4 | x1 | $0.8 | 1 | 24 GB | NVIDIA L4 |
aws | nvidia-l4 | x4 | $3.8 | 4 | 96 GB | NVIDIA L4 |
aws | nvidia-a100 | x1 | $4 | 1 | 80 GB | NVIDIA A100 |
aws | nvidia-a10g | x4 | $5 | 4 | 96 GB | NVIDIA A10G |
aws | nvidia-l40s | x1 | $1.8 | 1 | 48 GB | NVIDIA L40S |
aws | nvidia-l40s | x4 | $8.3 | 4 | 192 GB | NVIDIA L40S |
aws | nvidia-l40s | x8 | $23.5 | 8 | 384 GB | NVIDIA L40S |
aws | nvidia-a100 | x2 | $8 | 2 | 160 GB | NVIDIA A100 |
aws | nvidia-a100 | x4 | $16 | 4 | 320 GB | NVIDIA A100 |
aws | nvidia-a100 | x8 | $32 | 8 | 640 GB | NVIDIA A100 |
gcp | nvidia-t4 | x1 | $0.5 | 1 | 16 GB | NVIDIA T4 |
gcp | nvidia-l4 | x1 | $1 | 1 | 24 GB | NVIDIA L4 |
gcp | nvidia-l4 | x4 | $5 | 4 | 96 GB | NVIDIA L4 |
gcp | nvidia-a100 | x1 | $6 | 1 | 80 GB | NVIDIA A100 |
gcp | nvidia-a100 | x2 | $12 | 2 | 160 GB | NVIDIA A100 |
gcp | nvidia-a100 | x4 | $24 | 4 | 320 GB | NVIDIA A100 |
gcp | nvidia-a100 | x8 | $48 | 8 | 640 GB | NVIDIA A100 |
gcp | nvidia-h100 | x1 | $12.5 | 1 | 80 GB | NVIDIA H100 |
gcp | nvidia-h100 | x2 | $25 | 2 | 160 GB | NVIDIA H100 |
gcp | nvidia-h100 | x4 | $50 | 4 | 320 GB | NVIDIA H100 |
gcp | nvidia-h100 | x8 | $100 | 8 | 640 GB | NVIDIA H100 |
加速器实例
下表显示了当前可用的自定义加速器实例及其每小时定价。如果应用程序中无法选择实例类型,则需要申请配额才能使用它。
提供商 | 实例类型 | 实例大小 | 每小时费率 | 加速器 | 加速器内存 | RAM | 架构 |
---|---|---|---|---|---|---|---|
aws | inf2 | x1 | $0.75 | 1 | 32 GB | 14.5 GB | AWS Inferentia2 |
aws | inf2 | x12 | $12 | 12 | 384 GB | 760 GB | AWS Inferentia2 |
gcp | tpu | 1x1 | $1.38 | 1 | 16 GB | 44 GB | Google TPU v5e |
gcp | tpu | 2x2 | $5.5 | 4 | 64 GB | 186 GB | Google TPU v5e |
gcp | tpu | 2x4 | $11 | 8 | 128 GB | 380 GB | Google TPU v5e |
定价示例
以下示例定价场景演示了如何计算成本。您可以在上表中找到所有实例类型和大小的每小时费率。使用以下公式计算成本
instance hourly rate * ((hours * # min replica) + (scale-up hrs * # additional replicas))
基本端点
- AWS CPU intel-spr x2(2 个 vCPU,4 GB RAM)
- 自动缩放(最小 1 个副本,最大 1 个副本)
每小时成本
instance hourly rate * (hours * # min replica) = hourly cost
$0.067/hr * (1hr * 1 replica) = $0.067/hr
每月成本
instance hourly rate * (hours * # min replica) = monthly cost
$0.064/hr * (730hr * 1 replica) = $46.72/month
高级端点
- AWS GPU 小型(1 个 GPU,14 GB RAM)
- 自动缩放(最小 1 个副本,最大 3 个副本),每小时流量激增会将端点从 1 个副本扩展到 3 个副本,持续 15 分钟
每小时成本
instance hourly rate * ((hours * # min replica) + (scale-up hrs * # additional replicas)) = hourly cost
$0.5/hr * ((1hr * 1 replica) + (0.25hr * 2 replicas)) = $0.75/hr
每月成本
instance hourly rate * ((hours * # min replica) + (scale-up hrs * # additional replicas)) = monthly cost
$0.5/hr * ((730hr * 1 replica) + (182.5hr * 2 replicas)) = $547.5/month
配额
列出的可用配额现在可以在 https://ui.endpoints.huggingface.co 的“已使用配额”下方的推理仪表盘中查看。
显示的数字将引用已使用实例数/可用实例配额。已暂停的端点不会计入“已使用”配额。缩放到零的端点将计入“已使用”配额 - 如果您想释放此配额,只需暂停缩放到零的端点即可。
如果您想增加配额分配,请联系我们。PRO 用户和企业中心组织在申请时将可以使用更高的配额数量。
< > 在 GitHub 上更新