推理端点(专用)文档

推理端点容器类型

Hugging Face's logo
加入 Hugging Face 社区

并获取增强型文档体验

以开始使用

推理端点容器类型

创建端点时,在选择容器类型时有多种选择。

默认

默认容器类型是部署端点的最简单方法,并且由于 自定义推理处理程序 的缘故,它很灵活。Hugging Face 推理工具包现已在 https://github.com/huggingface/huggingface-inference-toolkit 上公开。

自定义

如果你想自定义镜像并包含一个 自定义容器,请选择自定义容器类型。

文本嵌入推理

选择文本嵌入推理容器类型,为你的端点获得 TEI 的所有优势。如果该模型支持,你将在 UI 中看到此选项。

文本生成推理

选择文本生成推理容器类型,为你的端点获得 TGI 的所有优势。如果该模型支持,你将在 UI 中看到此选项。

文本生成推理 (INF2)

选择文本生成推理 Inferentia2 Neuron 容器类型,用于在 AWS Inferentia2 实例上部署您想要使用 TGI 的模型。如果该模型支持,您将在 UI 中看到此选项。

文本生成推理 (TPU)

选择文本生成推理 TPU 容器类型,用于在 Google Cloud TPU 实例上部署您想要使用 TGI 的模型。如果该模型支持,您将在 UI 中看到此选项。

NVIDIA NIM (UI 中不再可用)

NIM 容器类型将不再正式支持从 2024 年 10 月 1 日开始的推理端点中的现有端点。选择 NVIDIA 支持的模型的 NIM 容器类型。如果该模型支持,您将在 UI 中看到此选项。

< > 在 GitHub 上更新