api-inference 文档

图像-文本到文本

api-inference

加入 Hugging Face 社区

并获取增强文档体验的访问权限

协作模型、数据集和空间

使用加速推理更快地获得示例

在文档主题之间切换

开始使用

图像-文本到文本

图像-文本到文本模型接收图像和文本提示，并输出文本。这些模型也称为视觉语言模型或 VLM。与图像到文本模型的区别在于，这些模型需要额外的文本输入，并不限制模型用于特定的用例，例如图像字幕，并且还可以接受对话作为输入。

有关 image-text-to-text 任务的更多详细信息，请查看其专用页面！您会找到示例和相关资料。

推荐的模型

meta-llama/Llama-3.2-11B-Vision-Instruct: 强大的视觉语言模型，具有出色的视觉理解和推理能力。
HuggingFaceM4/idefics2-8b-chatty: 最先进的对话式视觉语言模型，可以接受多个图像输入。
microsoft/Phi-3.5-vision-instruct: 强大的图像-文本到文本模型。

探索所有可用的模型并找到最适合您的模型这里。

使用 API

Python

JavaScript

cURL

API 规范

有关对话式图像-文本到文本模型的 API 规范，请参阅聊天完成 API 文档。

< > 更新 on GitHub

←图像到图像目标检测→

© . This site is unofficial and not affiliated with Hugging Face, Inc.