Hugging Face Generative AI Services (HUGS) 文档
HUGS on DigitalOcean
并获得增强的文档体验
开始使用
HUGS on DigitalOcean
Hugging Face Generative AI Services,也称为 HUGS,可以通过 DigitalOcean (DO) 的 GPU Droplets 作为一键模型进行部署。
这项合作将 Hugging Face 庞大的预训练模型库及其 Text Generation Inference (TGI) 解决方案带给 DigitalOcean 客户,从而在 DigitalOcean 的 GPU Droplets 中实现最先进的大型语言模型 (LLM) 的无缝集成。
HUGS 提供对精选和手动基准测试的最具性能和最新的开放 LLM 集合的访问,这些 LLM 托管在 Hugging Face Hub 中,用于 TGI 优化的容器应用程序,允许用户通过在 DigitalOcean GPU Droplets 上一键部署 LLM。
借助 HUGS,开发人员可以轻松地使用 DigitalOcean 的基础设施查找、订阅和部署 Hugging Face 模型,从而在优化的零配置 TGI 容器上利用 NVIDIA GPU 的强大功能。
更多操作指南
在 DO GPU Droplets 中一键部署 HUGS
如果您还没有 DigitalOcean 帐户,请创建一个并绑定有效的付款方式,并确保您有足够的配额来启动 GPU Droplets。
转到 DigitalOcean GPU Droplets 并创建一个新的。
选择一个数据中心区域(例如纽约 NYC2 或多伦多 TOR1,在撰写本文时可用)。
在选择镜像时选择“一键模型”,然后选择与 Hugging Face Hub 上托管的流行 LLM 相对应的任何可用的 Hugging Face 镜像。
- 配置剩余选项,完成后单击“创建 GPU Droplet”。
在 DO GPU Droplets 上进行 HUGS 推理
一旦 HUGS LLM 已部署在 DO GPU Droplet 中,您可以通过实例公开的公共 IP 连接到它,或者直接通过 Web 控制台连接到它。
当连接到 HUGS Droplet 时,初始 SSH 消息将显示一个 Bearer Token,这是向已部署的 HUGS Droplet 的公共 IP 发送请求所必需的。
然后,如果连接在 HUGS Droplet 内,您可以通过 localhost 向 Messages API 发送请求,或者通过其公共 IP 发送请求。
在下面的指南中的推理示例中,主机假定为 localhost,这是通过 GPU Droplet 部署 HUGS 并通过 SSH 连接到正在运行的实例的情况。如果您更喜欢使用公共 IP,则应在下面提供的示例中更新它。
请参阅“在 HUGS 上运行推理”以了解如何在 HUGS 上运行推理,但请注意,在这种情况下,您需要使用提供的 Bearer Token,因此请在下面找到更新后的示例,这些示例与指南中的示例相同,但使用 Bearer Token 将请求发送到已部署的 HUGS Droplet 的 Messages API(假设 Bearer Token 存储在环境变量 export BEARER_TOKEN
中)。
cURL
使用 cURL 非常简单,易于安装和使用。
curl http://localhost:8080/v1/chat/completions \
-X POST \
-d '{"messages":[{"role":"user","content":"What is Deep Learning?"}],"temperature":0.7,"top_p":0.95,"max_tokens":128}}' \
-H 'Content-Type: application/json' \
-H "Authorization: Bearer $BEARER_TOKEN"
Python
如前所述,您可以选择使用 huggingface_hub Python SDK (推荐) 中的 huggingface_hub.InferenceClient
、openai
Python SDK,或任何具有可使用 Messages API 的 OpenAI 兼容接口的 SDK。
huggingface_hub
您可以通过 pip 安装它,命令为 pip install --upgrade --quiet huggingface_hub
,然后运行以下代码片段来模拟上面的 cURL
命令,即向 Messages API 发送请求
import os
from huggingface_hub import InferenceClient
client = InferenceClient(base_url="http://localhost:8080", api_key=os.getenv("BEARER_TOKEN"))
chat_completion = client.chat.completions.create(
messages=[
{"role":"user","content":"What is Deep Learning?"},
],
temperature=0.7,
top_p=0.95,
max_tokens=128,
)
阅读有关 huggingface_hub.InferenceClient.chat_completion
方法的更多信息。
openai
或者,您也可以通过 openai
使用 Messages API;您可以通过 pip 安装它,命令为 pip install --upgrade openai
,然后运行
import os
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8080/v1/", api_key=os.getenv("BEARER_TOKEN"))
chat_completion = client.chat.completions.create(
model="tgi",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "What is Deep Learning?"},
],
temperature=0.7,
top_p=0.95,
max_tokens=128,
)
删除已创建的 DO GPU Droplet
最后,一旦您完成通过 GPU Droplet 使用已部署的 LLM,您可以安全地删除它,以避免通过已部署的 LLM 中的“操作”选项产生不必要的费用,然后删除它。
< > 在 GitHub 上更新