推出 HUGS - 用开放模型扩展您的 AI

发布于 2024 年 10 月 23 日

在 GitHub 上更新

今天，我们激动地宣布推出 Hugging Face 生成式 AI 服务，又称 HUGS：这是一款优化过的零配置推理微服务，旨在简化和加速使用开放模型进行 AI 应用开发。HUGS 基于开源 Hugging Face 技术构建，例如文本生成推理（Text Generation Inference）和 Transformers，提供在您自己的基础设施中高效构建和扩展生成式 AI 应用的最佳解决方案。HUGS 经过优化，可在各种硬件加速器上运行开放模型，包括 NVIDIA GPU、AMD GPU，并将很快支持 AWS Inferentia 和 Google TPU。

开放模型的零配置优化推理

HUGS 简化了开放模型在您自己的基础设施和各种硬件上的优化部署。开发者和组织面临的一个主要挑战是，优化特定 GPU 或 AI 加速器上 LLM 的推理工作负载所涉及的工程复杂性。通过 HUGS，我们实现了最流行的开放 LLM 的最大吞吐量部署，且无需任何配置。HUGS 提供的每种部署配置都经过充分测试和维护，可即插即用。

HUGS 模型部署提供与 OpenAI 兼容的 API，可用于即时替换基于模型提供商 API 构建的现有生成式 AI 应用程序。只需将您的代码指向 HUGS 部署，即可用您自己基础设施中托管的开放模型为您的应用程序提供动力。

为何选择 HUGS？

HUGS 提供了一种简便的方法，可使用托管在您自己的基础设施中的开放模型来构建 AI 应用程序，并具有以下优势：

在您的基础设施中：在您自己的安全环境中部署开放模型。让您的数据和模型保持离线！
零配置部署：HUGS 通过零配置设置将部署时间从数周缩短到数分钟，自动为您的 NVIDIA、AMD GPU 或 AI 加速器优化模型和服务配置。
硬件优化推理：HUGS 基于 Hugging Face 的文本生成推理（Text Generation Inference，TGI）构建，针对不同硬件设置的峰值性能进行了优化。
硬件灵活性：HUGS 可在各种加速器上运行，包括 NVIDIA GPU、AMD GPU，并将很快支持 AWS Inferentia 和 Google TPU。
模型灵活性：HUGS 兼容各种开源模型，为您的 AI 应用程序提供灵活性和选择。
行业标准 API：使用 Kubernetes 轻松部署 HUGS，其端点与 OpenAI API 兼容，最大限度地减少代码更改。
企业发行版：HUGS 是 Hugging Face 开源技术的企业发行版，提供长期支持、严格测试和 SOC2 合规性。
企业合规性：通过包含必要的许可和服务条款来最大限度地降低合规风险。

我们为精选的企业中心客户提供了 HUGS 的早期访问权限

HUGS 是一个巨大的省时工具，可以部署本地就绪的、性能良好的模型——在 HUGS 之前，这需要我们一周的时间，现在我们可以在不到 1 小时内完成。对于有主权 AI 需求的客户来说，这是一个改变游戏规则的工具！—— Henri Jouhaud，Polyconseil 首席技术官

我们尝试使用 HUGS 在 GCP 上部署 Gemma 2，并使用 L4 GPU——我们无需费心库、版本和参数，它开箱即用。HUGS 让我们有信心可以扩展我们在内部对开放模型的使用！—— Ghislain Putois，Orange 研究工程师

工作原理

使用 HUGS 非常简单。以下是您可以开始使用的方法：

注意：根据您选择的部署方法，您需要访问相应的订阅或市场产品。

HUGS 的获取途径

HUGS 可通过多种渠道获取：

云服务提供商 (CSP) 市场：您可以在 Amazon Web Services (AWS) 和 Google Cloud Platform (GCP) 上找到并部署 HUGS。Microsoft Azure 支持即将推出。
DigitalOcean：HUGS 在 DigitalOcean 中原生提供，作为一项新的 1-Click Models 服务，由 Hugging Face HUGS 和 GPU Droplets 提供支持。
企业中心：如果您的组织已升级到企业中心，请联系我们的销售团队以获取 HUGS 访问权限。

有关每个平台的具体部署说明，请参阅上面链接的相关文档。

定价

HUGS 提供按需定价，根据每个容器的正常运行时间计费，DigitalOcean 上的部署除外。

AWS Marketplace 和 Google Cloud Platform Marketplace： 每个容器每小时 1 美元，无最低费用（计算使用费由 CSP 单独计费）。在 AWS 上，您有 5 天的免费试用期，可以免费测试 HUGS。
DigitalOcean： 由 Hugging Face HUGS 提供支持的 1-Click Models 在 DigitalOcean 上无需额外费用——常规 GPU Droplets 计算费用适用。
企业中心： 我们为企业中心组织提供自定义 HUGS 访问权限。请联系我们的销售团队以了解更多信息。

运行推理

HUGS 基于文本生成推理（TGI），提供无缝的推理体验。有关详细说明和示例，请参阅在 HUGS 上运行推理指南。HUGS 利用与 OpenAI 兼容的 Messages API，允许您使用熟悉的工具和库，如 cURL、`huggingface_hub` SDK 和 `openai` SDK 来发送请求。

from huggingface_hub import InferenceClient

ENDPOINT_URL="REPLACE" # replace with your deployed url or IP

client = InferenceClient(base_url=ENDPOINT_URL, api_key="-")

chat_completion = client.chat.completions.create(
    messages=[
        {"role":"user","content":"What is Deep Learning?"},
    ],
    temperature=0.7,
    top_p=0.95,
    max_tokens=128,
)

支持的模型和硬件

HUGS 支持不断增长的开放模型和硬件平台生态系统。请参阅我们的支持的模型和支持的硬件页面，以获取最新信息。

我们今天发布了 13 个流行的开放式 LLM：

有关支持的模型与硬件的详细视图，请查看文档。

即刻开始使用 HUGS

HUGS 使您能够轻松利用开放模型的力量，在您自己的基础设施中实现零配置的优化推理。通过 HUGS，您可以掌控您的 AI 应用程序，轻松将使用封闭模型构建的概念验证应用程序转换为您自己托管的开放模型应用程序。

立即开始，在 AWS、Google Cloud 或 DigitalOcean 上部署 HUGS！

更多博客文章

在 Intel Gaudi 上使用 TGI 加速 LLM 推理

作者： 2025 年 3 月 28 日 • 14

通过 Hugging Face 和 NVIDIA NIMs 进行无服务器推理

作者： 2024 年 7 月 29 日 • 32

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论