在 Google Cloud 上部署 HUGS

Hugging Face Generative AI Services，也称为 HUGS，可以通过 Google Cloud Marketplace 产品在 Google Cloud 中部署。

此次合作将 Hugging Face 广泛的预训练模型库及其 Text Generation Inference (TGI) 解决方案带给 Google Cloud 客户，从而能够在 Google Cloud 基础设施内无缝集成最先进的大型语言模型 (LLM)。

HUGS 提供了对精选并经过人工基准测试的、托管在 Hugging Face Hub 中的性能最佳和最新的开源 LLM 集合的访问，以及 TGI 优化的容器应用程序，允许用户在 GCP 或本地环境中部署第三方 Kubernetes 应用程序。

借助 HUGS，开发人员可以使用 GCP 基础设施轻松查找、订阅和部署 Hugging Face 模型，从而利用 NVIDIA GPU 在优化的零配置 TGI 容器上的强大功能。

在 GCP Marketplace 上订阅 HUGS

访问 HUGS Google Cloud Marketplace 列表
按照页面上的说明在 Google Cloud 中订阅该产品。在撰写本文时（2024 年 10 月），步骤如下：
1. 点击 购买，然后转到下一页。
2. 通过选择正确的计划、结算帐户并确认条款来配置订单。然后点击 订阅。
您应该看到“您的订单请求已发送至 Hugging Face”消息，并带有一个“转到产品页面”按钮。点击它。

要了解您是否已订阅，您可以查看产品页面上的“购买”按钮或“配置”按钮是否启用，这意味着您或您组织中的其他人已经为您的帐户请求了访问权限。

在 Google Cloud GKE 上部署 HUGS

此示例演示如何在 Google Cloud GKE 上部署 HUGS 容器和模型。

此示例假设您拥有 Google Cloud 帐户，并且已安装并设置了 Google Cloud CLI，并且您已登录到您的帐户，并具有在 Google Cloud Marketplace 中订阅产品以及创建和管理 IAM 权限和资源（例如 Google Kubernetes Engine (GKE)）的必要权限。

通过 UI 在 Google Cloud 上部署 HUGS 时，您可以选择现有的 GKE 集群或创建一个新的集群。如果要创建新的集群，可以按照此处的说明进行操作。此外，您还需要定义：

命名空间：用于部署 HUGS 容器和模型的命名空间。
应用实例名称：HUGS 容器的名称。
Hugs 模型 ID：从 Hugging Face Hub 中选择要部署的模型。您可以在此处找到所有支持的模型。
GPU 数量：您可用于部署的 GPU 数量，请务必查看支持的模型矩阵，以了解哪些模型需要 GPU。
GPU 类型：您的 GKE 集群中可用的 GPU 类型。
报告服务帐户：用于报告的服务帐户。

接下来，点击 部署 并等待部署完成。这大约需要 10-15 分钟。

如果您想更好地了解您可以使用的不同部署选项，例如用于 Meta Llama 3.1 8B Instruct 的 1 个 NVIDIA L4 GPU，您可以查看支持的模型矩阵。

向 HUGS 应用程序发送请求

每个 HUGS 应用程序都包含有关如何检索 Ingress IP 地址和端口以向应用程序发送请求的说明。HUGS 部署是一个 HELM chart 的部署，其中包括我们的模型容器、marketplace agent（sidecar）、卷和 ingress load balancer，以使应用程序可以从集群外部访问。

HUGS Ingress

或者，您也可以通过 openai 使用 Messages API。了解有关推理的更多信息，请参见此处。

为 HUGS 创建 GPU GKE 集群

要在 Google Cloud 上部署 HUGS，您需要一个支持 GPU 的 GKE 集群。以下是创建集群的分步指南：

确保您已安装并配置了 Google Cloud CLI。
设置集群配置的环境变量

export PROJECT_ID="your-project-id" # Your Google Cloud Project ID which is subscribed to HUGS
export CLUSTER_NAME="hugs-cluster" # The name of the GKE cluster
export LOCATION="us-central1" # The location of the GKE cluster
export MACHINE_TYPE="g2-standard-12" # The machine type of the GKE cluster
export GPU_TYPE="nvidia-l4" # The type of GPU to use
export GPU_COUNT=1 # The number of GPUs to use

创建 GKE 集群

gcloud container clusters create $CLUSTER_NAME \
    --project=$PROJECT_ID \
    --zone=$LOCATION \
    --release-channel=stable \
    --cluster-version=1.29 \
    --machine-type=$MACHINE_TYPE \
    --num-nodes=1 \
    --no-enable-autoprovisioning

向集群添加 GPU 节点池

gcloud container node-pools create gpu-pool \
    --cluster=$CLUSTER_NAME \
    --zone=$LOCATION \
    --machine-type=$MACHINE_TYPE \
    --accelerator type=$GPU_TYPE,count=$GPU_COUNT,gpu-driver-version=default \
    --num-nodes=1 \
    --enable-autoscaling \
    --min-nodes=1 \
    --max-nodes=1 \
    --spot \
    --disk-type=pd-ssd \
    --disk-size=100GB

配置 kubectl 以使用新集群

gcloud container clusters get-credentials $CLUSTER_NAME --zone=$LOCATION

现在，您的支持 GPU 的 GKE 集群已准备好用于 HUGS 部署。您可以按照上一节中的描述，使用 Google Cloud Marketplace 部署 HUGS。

有关创建和管理 GKE 集群的更多详细信息，请参阅官方 Google Kubernetes Engine 文档或在 GKE Standard 节点池中运行 GPU。

< > 在 GitHub 上更新

Hugging Face Generative AI Services (HUGS)

在 Google Cloud 上部署 HUGS

在 GCP Marketplace 上订阅 HUGS

在 Google Cloud GKE 上部署 HUGS

向 HUGS 应用程序发送请求

为 HUGS 创建 GPU GKE 集群