Hugging Face 生成式 AI 服务 (HUGS)

针对开放 AI 模型优化的零配置推理微服务

Hugging Face 生成式 AI 服务 (HUGS) 是优化的零配置推理微服务，旨在简化和加速使用开放模型开发 AI 应用程序的过程。HUGS 基于开源 Hugging Face 技术（如 Text Generation Inference 或 Transformers）构建，为使用开放模型高效构建生成式 AI 应用程序提供了最佳解决方案，并针对各种硬件加速器进行了优化，包括 NVIDIA GPU、AMD GPU、AWS Inferentia 和 Google TPU（即将推出）。

主要特性

零配置部署：根据您的硬件环境自动加载最佳设置。
优化的硬件推理引擎：基于 Hugging Face 的 Text Generation Inference (TGI) 构建，针对各种硬件进行了优化。
硬件灵活性：针对各种加速器进行了优化，包括 NVIDIA GPU、AMD GPU、AWS Inferentia 和 Google TPU
专为开放模型构建：兼容各种流行的开放 AI 模型，包括 LLM、多模态模型和嵌入模型。
行业标准化 API：易于使用 Kubernetes 部署，并基于 OpenAI API 标准化。
安全和控制：在您自己的基础设施中部署 HUGS，以增强安全性和数据控制。
企业合规性：通过包含必要的许可和条款，最大限度地降低合规风险。

为什么选择 HUGS？

企业在使用开放模型时，常常在性能、工程复杂性和合规性方面与其模型服务基础设施作斗争。早期创业公司和大型企业已经使用模型构建了 POC，但这并不是因为他们想使用带有黑盒 API 的封闭模型，而是因为使用开放模型构建 AI 需要更多的工作。

HUGS 是优化的零配置推理微服务，旨在简化和加速 AI 模型的开发。通过 HUGS，我们希望让从闭源 API 切换到自托管开放模型变得容易。

HUGS 提供与 OpenAI API 兼容的端点，因此当您将 POC 过渡到生产环境时，无需更改代码。它们自动提供最大的硬件效率。当新的经过实战检验的开放模型可用时，HUGS 通过提供更新，使您可以轻松地将应用程序保持在生成式 AI 的前沿。

专为开放模型构建

兼容各种流行的开放 AI 模型，包括

LLMs: Llama, Gemma, Mistral, Mixtral, Qwen, Deepseek (soon), T5 (soon), Yi (soon), Phi (soon), Command R (soon)
(即将推出) 多模态模型: Idefics, Llava
(即将推出) 嵌入模型: BGE, GTE, Mixbread, Arctic, Jina, Nomic

入门指南

要开始使用 HUGS，您有多种选择。您可以通过 Hugging Face Enterprise 订阅或通过云服务提供商 (CSP) 市场访问 HUGS。目前，您可以在 Amazon Web Services (AWS) 和 Google Cloud Platform (GCP) 上找到 HUGS，Microsoft Azure 也即将推出。HUGS 也原生内置于 DigitalOcean GPU Droplet 中。

有关部署和使用的详细说明

Hugging Face 企业版
Amazon Web Services (AWS)
- AWS with NVIDIA GPUs
- AWS with Inferentia & Trainium
DigitalOcean
Google Cloud Platform (GCP)
Microsoft Azure (即将推出)

Hugging Face 生成式 AI 服务 (HUGS)

Hugging Face 生成式 AI 服务 (HUGS)

主要特性

为什么选择 HUGS？

专为开放模型构建

入门指南

更多资源