hugs 文档

在HUGS上运行推理

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

在HUGS上运行推理

如前所述,HUGS 基于文本生成推理 (TGI);这意味着在已部署的 HUGS 容器上运行推理与 TGI 完全相同。有关更多信息,请参阅文本生成推理文档关于如何使用 TGI

在下面显示的推理示例中,假定主机为localhost,这在使用端口转发通过 Kubernetes 部署 HUGS 或在当前实例上使用docker run部署 HUGS 时的情况。如果您已通过特定 IP、主机和/或 SSL (HTTPS) 在入口下部署了 Kubernetes 上的 HUGS,请注意您应该使用您的主机或 IP 更新下面的localhost引用。

消息API

消息API是遵循OpenAI OpenAPI规范的,位于/v1/chat/completions下的OpenAI兼容端点。OpenAI兼容意味着推理不仅可以使用cURL运行,还可以使用Python中的huggingface_hub.InferenceClientopenai.OpenAI SDK,以及任何其他编程语言中任何OpenAI兼容的SDK。

cURL

使用cURL非常简单,可以安装和使用。

curl https://:8080/v1/chat/completions \
    -X POST \
    -d '{"model":"tgi","messages":[{"role":"user","content":"What is Deep Learning?"}],"temperature":0.7,"top_p":0.95,"max_tokens":128}}' \
    -H 'Content-Type: application/json'

Python

如前所述,您可以使用huggingface_hub Python SDK 中的huggingface_hub.InferenceClient(推荐),也可以使用openai Python SDK,或任何具有 OpenAI 兼容接口且可以使用消息 API 的 SDK。

huggingface_hub

您可以通过pip安装它,命令为pip install --upgrade --quiet huggingface_hub,然后运行以下代码片段来模拟上述cURL命令,即向消息API发送请求。

from huggingface_hub import InferenceClient

client = InferenceClient(base_url="https://:8080", api_key="-")

chat_completion = client.chat.completions.create(
    messages=[
        {"role":"user","content":"What is Deep Learning?"},
    ],
    temperature=0.7,
    top_p=0.95,
    max_tokens=128,
)

阅读更多关于huggingface_hub.InferenceClient.chat_completion方法的信息。

openai

另外,您也可以通过openai使用消息API;您可以通过pip install --upgrade openai安装它,然后运行

from openai import OpenAI

client = OpenAI(base_url="https://:8080/v1/", api_key="-")

chat_completion = client.chat.completions.create(
    model="tgi",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is Deep Learning?"},
    ],
    temperature=0.7,
    top_p=0.95,
    max_tokens=128,
)

其他端点

除了上述端点之外,TGI 还提供了TGI OpenAPI 规范中定义的其他端点,这些端点不仅可用于推理,还可用于分词、指标或获取有关已部署模型的信息。

< > 在 GitHub 上更新