参数
其他选项
缓存
推理 API 上有一层缓存层,用于在输入完全相同的情况下加速请求。许多模型,例如分类器和嵌入模型,如果它们是确定性的,则可以直接使用这些结果,这意味着结果将相同。但是,如果您使用非确定性模型,则可以禁用缓存机制的使用,从而导致一个真正的全新查询。
为此,您可以将x-use-cache:false
添加到请求头中。例如
Python
JavaScript
cURL
import requests
API_URL = "https://api-inference.huggingface.co/models/MODEL_ID"
headers = {
"Authorization": "Bearer hf_***",
"Content-Type": "application/json",
+ "x-use-cache": "false"
}
data = {
"inputs": "Can you please let us know more details about your "
}
response = requests.post(API_URL, headers=headers, json=data)
print(response.json())
等待模型
当模型处于预热状态时,它已准备好使用,您将获得相对快速的响应。但是,某些模型是冷的,需要在使用前加载。在这种情况下,您将收到 503 错误。与其发出许多请求直到它加载完毕,不如通过将x-wait-for-model:true
添加到请求头来等待模型加载。我们建议仅在您确定模型处于冷状态时才使用此标志来等待模型加载。这意味着,首先尝试在没有此标志的情况下发出请求,并且只有在收到 503 错误时,才尝试使用此标志再次发出请求。
Python
JavaScript
cURL
import requests
API_URL = "https://api-inference.huggingface.co/models/MODEL_ID"
headers = {
"Authorization": "Bearer hf_***",
"Content-Type": "application/json",
+ "x-wait-for-model": "true"
}
data = {
"inputs": "Can you please let us know more details about your "
}
response = requests.post(API_URL, headers=headers, json=data)
print(response.json())