推理提供商文档
图像-文本到文本
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
图像-文本到文本
图像-文本到文本模型接收图像和文本提示作为输入并输出文本。这些模型也称为视觉语言模型或 VLM。与图像到文本模型的区别在于,这些模型需要额外的文本输入,不将模型限制在图像字幕等特定用例中,并且还可以训练接受对话作为输入。
有关 `图像-文本到文本` 任务的更多详细信息,请查看其专用页面!您将找到示例和相关材料。
推荐模型
- Qwen/Qwen2.5-VL-7B-Instruct:强大的图像-文本到文本模型。
在此处探索所有可用模型并找到最适合您的模型。
使用 API
语言
客户端
提供商
import os
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="cerebras",
api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe this image in one sentence."
},
{
"type": "image_url",
"image_url": {
"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
}
}
]
}
],
)
print(completion.choices[0].message)
API 规范
有关对话式图像-文本到文本模型的 API 规范,请参阅聊天补全 API 文档。
< > 在 GitHub 上更新