Hugging Face 生成式人工智能服务 (HUGS)

为开放 AI 模型提供的优化、零配置的推理微服务

Hugging Face 生成式人工智能服务 (HUGS) 是一种经过优化、零配置的推理微服务，旨在简化和加速使用开放模型进行 AI 应用的开发。HUGS 基于 Hugging Face 的开源技术（如 Text Generation Inference 或 Transformers）构建，为使用开放模型高效构建生成式 AI 应用提供了最佳解决方案，并针对各种硬件加速器进行了优化，包括 NVIDIA GPU、AMD GPU、AWS Inferentia 和 Google TPU（即将推出）。

主要特性

零配置部署：根据您的硬件环境自动加载最佳设置。
优化的硬件推理引擎：基于 Hugging Face 的文本生成推理（TGI）构建，并针对多种硬件进行了优化。
硬件灵活性：针对各种加速器进行了优化，包括 NVIDIA GPU、AMD GPU、AWS Inferentia 和 Google TPU。
专为开放模型打造：兼容各种流行的开放 AI 模型，包括 LLM、多模态模型和嵌入模型。
行业标准化 API：可使用 Kubernetes 轻松部署，并遵循 OpenAI API 标准。
安全与控制：可在您自己的基础设施内部署 HUGS，以增强安全性和数据控制。
企业合规性：包含必要的许可证和服务条款，将合规风险降至最低。

为什么选择 HUGS？

在使用开放模型时，企业在模型服务基础设施的性能、工程复杂性和合规性方面常常遇到困难。无论是初创公司还是大型企业，都曾使用模型构建过概念验证（POC），这并非因为他们想使用带有黑盒 API 的闭源模型，而是因为用开放模型构建 AI 应用需要更多的工作。

HUGS 是经过优化的零配置推理微服务，旨在简化和加速 AI 模型的开发。我们希望通过 HUGS，让从闭源 API 切换到自托管的开放模型变得简单。

HUGS 提供与 OpenAI API 兼容的端点，因此在将您的 POC 迁移到生产环境中使用您自己的模型和基础设施时，无需更改代码。它们能自动实现最高的硬件效率。通过在新的、经过实战检验的开放模型可用时提供更新，HUGS 让您的应用轻松保持在生成式 AI 的前沿。

专为开放模型打造

兼容各种流行的开放 AI 模型，包括：

LLM：Llama、Gemma、Mistral、Mixtral、Qwen、Deepseek（即将推出）、T5（即将推出）、Yi（即将推出）、Phi（即将推出）、Command R（即将推出）
（即将推出）多模态模型：Idefics、Llava
（即将推出）嵌入模型：BGE、GTE、Mixbread、Arctic、Jina、Nomic

开始使用

您可以通过多种方式开始使用 HUGS。您可以将其作为 Hugging Face 企业订阅的一部分，或通过云服务提供商（CSP）的市场获取。目前，您可以在 Amazon Web Services (AWS) 和 Google Cloud Platform (GCP) 上找到 HUGS，不久后也将在 Microsoft Azure 上线。HUGS 也已原生集成到 DigitalOcean GPU Droplet 中。

有关部署和使用的详细说明

Hugging Face 企业版
亚马逊网络服务 (AWS)
- 使用 NVIDIA GPU 的 AWS
- 使用 Inferentia 和 Trainium 的 AWS
DigitalOcean
Google Cloud Platform (GCP)
Microsoft Azure (即将推出)

hugs

Hugging Face 生成式人工智能服务 (HUGS)

主要特性

为什么选择 HUGS？

专为开放模型打造

开始使用

更多资源