图像-文本到文本
图像-文本到文本模型接收图像和文本提示,并输出文本。这些模型也称为视觉语言模型或 VLM。与图像到文本模型的区别在于,这些模型需要额外的文本输入,并不限制模型用于特定的用例,例如图像字幕,并且还可以接受对话作为输入。
有关 image-text-to-text
任务的更多详细信息,请查看其 专用页面!您会找到示例和相关资料。
推荐的模型
- meta-llama/Llama-3.2-11B-Vision-Instruct: 强大的视觉语言模型,具有出色的视觉理解和推理能力。
- HuggingFaceM4/idefics2-8b-chatty: 最先进的对话式视觉语言模型,可以接受多个图像输入。
- microsoft/Phi-3.5-vision-instruct: 强大的图像-文本到文本模型。
探索所有可用的模型并找到最适合您的模型 这里。
使用 API
Python
JavaScript
cURL
import requests
API_URL = "https://api-inference.huggingface.co/models/meta-llama/Llama-3.2-11B-Vision-Instruct"
headers = {"Authorization": "Bearer hf_***"}
from huggingface_hub import InferenceClient
client = InferenceClient(api_key="hf_***")
image_url = "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
for message in client.chat_completion(
model="meta-llama/Llama-3.2-11B-Vision-Instruct",
messages=[
{
"role": "user",
"content": [
{"type": "image_url", "image_url": {"url": image_url}},
{"type": "text", "text": "Describe this image in one sentence."},
],
}
],
max_tokens=500,
stream=True,
):
print(message.choices[0].delta.content, end="")
要使用 Python 客户端,请查看 huggingface_hub
的 包参考。
API 规范
有关对话式图像-文本到文本模型的 API 规范,请参阅 聊天完成 API 文档。
< > 更新 on GitHub