推理端点(专用)文档
推理端点
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
推理端点


推理端点是一项托管服务,用于将您的 AI 模型部署到生产环境。在这里,您将找到快速入门、指南、教程、用例等更多内容。
🔥 快速入门
在几分钟内部署一个生产就绪的 AI 模型。
🔍 推理端点如何工作
了解推理端点的主要组件和优势。
📖 指南
浏览我们的指南,了解如何在平台上配置或启用特定功能。
🧑💻 教程
针对常见开发者场景的逐步指南。
为何使用推理端点
推理端点使将 AI 模型部署到生产环境成为一种顺畅的体验。您不必花费数周时间配置基础设施、管理服务器和调试部署问题,而是可以专注于最重要的事情:您的模型和您的用户。
我们的平台消除了 AI 基础设施的复杂性,同时提供了可随您的业务需求扩展的企业级功能。无论您是启动第一个 AI 产品的初创公司,还是管理数百个模型的企业团队,推理端点都能为您提供所需的可靠性、性能和成本效益。
主要优势包括
- ⬇️ 减少运营开销:无需专门的 DevOps 团队和基础设施管理,让您专注于创新。
- 🚀 自信地扩展:自动处理流量高峰,无需担心容量规划或性能下降。
- ⬇️ 降低总拥有成本:避免自我管理基础设施的隐藏成本,包括维护、监控和安全合规。
- 💻 让您的 AI 技术栈面向未来:保持与最新的框架和优化同步,无需管理复杂的升级。
- 🔥 专注于重要的事情:将您的时间花在改进模型和构建出色的用户体验上,而不是管理服务器。
主要功能
- 📦 完全托管的基础设施:您无需担心 Kubernetes、CUDA 版本和配置 VPN 等问题。推理端点在后台处理这些问题,因此您可以专注于尽快部署模型并为客户提供服务。
- ↕️ 自动扩缩:随着模型流量的增加,您也需要更多的计算能力。您的推理端点会随着流量的增加而扩展,随着流量的减少而缩减,从而为您节省不必要的计算成本。
- 👀 可观测性:通过日志和指标了解并调试模型中发生的情况。
- 🔥 集成支持开源服务框架:无论您想使用 vLLM、TGI 还是自定义容器部署模型,我们都能满足您的需求!
- 🤗 与 Hugging Face Hub 无缝集成:在将 AI 模型投入生产时,快速且安全地下载模型权重至关重要。使用推理端点,既简单又安全。
延伸阅读
如果您正在考虑在生产环境中使用推理端点,请阅读这两个案例研究
您可能还会发现这些博客很有帮助
- 🤗 在 Argilla 中使用 Hugging Face 推理端点提供 LLM 建议
- 以编程方式管理推理端点
- TGI Multi-LoRA:一次部署,服务 30 个模型
- Llama 3.1 - 405B、70B 和 8B,支持多语言和长上下文
- 使用推理端点快速部署 MusicGen
或者尝试快速入门!
< > 在 GitHub 上更新