api-inference 文档

图像-文本到文本

Hugging Face's logo
加入 Hugging Face 社区

并获取增强文档体验的访问权限

开始使用

图像-文本到文本

图像-文本到文本模型接收图像和文本提示,并输出文本。这些模型也称为视觉语言模型或 VLM。与图像到文本模型的区别在于,这些模型需要额外的文本输入,并不限制模型用于特定的用例,例如图像字幕,并且还可以接受对话作为输入。

有关 image-text-to-text 任务的更多详细信息,请查看其 专用页面!您会找到示例和相关资料。

推荐的模型

探索所有可用的模型并找到最适合您的模型 这里

使用 API

Python
JavaScript
cURL
import requests

API_URL = "https://api-inference.huggingface.co/models/meta-llama/Llama-3.2-11B-Vision-Instruct"
headers = {"Authorization": "Bearer hf_***"}

from huggingface_hub import InferenceClient

client = InferenceClient(api_key="hf_***")

image_url = "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"

for message in client.chat_completion(
	model="meta-llama/Llama-3.2-11B-Vision-Instruct",
	messages=[
		{
			"role": "user",
			"content": [
				{"type": "image_url", "image_url": {"url": image_url}},
				{"type": "text", "text": "Describe this image in one sentence."},
			],
		}
	],
	max_tokens=500,
	stream=True,
):
	print(message.choices[0].delta.content, end="")

要使用 Python 客户端,请查看 huggingface_hub包参考

API 规范

有关对话式图像-文本到文本模型的 API 规范,请参阅 聊天完成 API 文档

< > 更新 on GitHub