hugs 文档
在HUGS上运行推理
并获得增强的文档体验
开始使用
在HUGS上运行推理
如前所述,HUGS 基于文本生成推理 (TGI);这意味着在已部署的 HUGS 容器上运行推理与 TGI 完全相同。有关更多信息,请参阅文本生成推理文档关于如何使用 TGI。
在下面显示的推理示例中,假定主机为localhost
,这在使用端口转发通过 Kubernetes 部署 HUGS 或在当前实例上使用docker run
部署 HUGS 时的情况。如果您已通过特定 IP、主机和/或 SSL (HTTPS) 在入口下部署了 Kubernetes 上的 HUGS,请注意您应该使用您的主机或 IP 更新下面的localhost
引用。
消息API
消息API是遵循OpenAI OpenAPI规范的,位于/v1/chat/completions
下的OpenAI兼容端点。OpenAI兼容意味着推理不仅可以使用cURL
运行,还可以使用Python中的huggingface_hub.InferenceClient
和openai.OpenAI
SDK,以及任何其他编程语言中任何OpenAI兼容的SDK。
cURL
使用cURL
非常简单,可以安装和使用。
curl https://:8080/v1/chat/completions \
-X POST \
-d '{"model":"tgi","messages":[{"role":"user","content":"What is Deep Learning?"}],"temperature":0.7,"top_p":0.95,"max_tokens":128}}' \
-H 'Content-Type: application/json'
Python
如前所述,您可以使用huggingface_hub
Python SDK 中的huggingface_hub.InferenceClient
(推荐),也可以使用openai
Python SDK,或任何具有 OpenAI 兼容接口且可以使用消息 API 的 SDK。
huggingface_hub
您可以通过pip安装它,命令为pip install --upgrade --quiet huggingface_hub
,然后运行以下代码片段来模拟上述cURL
命令,即向消息API发送请求。
from huggingface_hub import InferenceClient
client = InferenceClient(base_url="https://:8080", api_key="-")
chat_completion = client.chat.completions.create(
messages=[
{"role":"user","content":"What is Deep Learning?"},
],
temperature=0.7,
top_p=0.95,
max_tokens=128,
)
阅读更多关于huggingface_hub.InferenceClient.chat_completion
方法的信息。
openai
另外,您也可以通过openai
使用消息API;您可以通过pip install --upgrade openai
安装它,然后运行
from openai import OpenAI
client = OpenAI(base_url="https://:8080/v1/", api_key="-")
chat_completion = client.chat.completions.create(
model="tgi",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "What is Deep Learning?"},
],
temperature=0.7,
top_p=0.95,
max_tokens=128,
)
其他端点
除了上述端点之外,TGI 还提供了TGI OpenAPI 规范中定义的其他端点,这些端点不仅可用于推理,还可用于分词、指标或获取有关已部署模型的信息。
< > 在 GitHub 上更新