在 HUGS 上运行推理

如前所述，HUGS 基于文本生成推理 (TGI)；这意味着在已部署的 HUGS 容器上运行推理与 TGI 完全相同。有关更多信息，请参阅文本生成推理文档，了解如何使用 TGI。

在下面显示的推理示例中，主机假定为 localhost，这在使用 Kubernetes 进行端口转发部署 HUGS 或在当前实例上使用 docker run 部署 HUGS 时是这种情况。如果您已使用特定 IP、主机和/或 SSL (HTTPS) 下的 Ingress 在 Kubernetes 上部署了 HUGS，请注意您应该使用您的主机或 IP 更新下面的 localhost 引用。

消息 API

消息 API 是一个 OpenAI 兼容的端点，位于 /v1/chat/completions 下，遵循 OpenAI OpenAPI 规范。 OpenAI 兼容意味着推理不仅可以使用 cURL 运行，还可以使用 Python 中的 huggingface_hub.InferenceClient 和 openai.OpenAI SDK，以及任何编程语言中的任何其他 OpenAI 兼容的 SDK。

cURL

使用 cURL 非常简单，易于安装和使用。

curl https://:8080/v1/chat/completions \
    -X POST \
    -d '{"model":"tgi","messages":[{"role":"user","content":"What is Deep Learning?"}],"temperature":0.7,"top_p":0.95,"max_tokens":128}}' \
    -H 'Content-Type: application/json'

Python

如前所述，您可以选择使用 huggingface_hub Python SDK (推荐) 中的 huggingface_hub.InferenceClient、openai Python SDK 或任何具有 OpenAI 兼容接口的 SDK，这些 SDK 可以使用消息 API。

huggingface_hub

您可以通过 pip 安装它，命令为 pip install --upgrade --quiet huggingface_hub，然后运行以下代码片段来模拟上面的 cURL 命令，即向消息 API 发送请求

from huggingface_hub import InferenceClient

client = InferenceClient(base_url="https://:8080", api_key="-")

chat_completion = client.chat.completions.create(
    messages=[
        {"role":"user","content":"What is Deep Learning?"},
    ],
    temperature=0.7,
    top_p=0.95,
    max_tokens=128,
)

阅读更多关于 huggingface_hub.InferenceClient.chat_completion 方法的信息。

openai

或者，您也可以通过 openai 使用消息 API；您可以通过 pip 安装它，命令为 pip install --upgrade openai，然后运行：

from openai import OpenAI

client = OpenAI(base_url="https://:8080/v1/", api_key="-")

chat_completion = client.chat.completions.create(
    model="tgi",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is Deep Learning?"},
    ],
    temperature=0.7,
    top_p=0.95,
    max_tokens=128,
)

其他端点

除了上面提到的端点外，TGI 还附带了 TGI OpenAPI 规范中定义的其他端点，这些端点不仅可以用于推理，还可以用于分词、指标或有关已部署模型的信息。

< > 在 GitHub 上更新