推理提供商文档

图像-文本到文本

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

图像-文本到文本

图像-文本到文本模型接收图像和文本提示作为输入并输出文本。这些模型也称为视觉语言模型或 VLM。与图像到文本模型的区别在于,这些模型需要额外的文本输入,不将模型限制在图像字幕等特定用例中,并且还可以训练接受对话作为输入。

有关 `图像-文本到文本` 任务的更多详细信息,请查看其专用页面!您将找到示例和相关材料。

推荐模型

在此探索所有可用模型并找到最适合您的模型。

使用 API

import os
from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="cerebras",
    api_key=os.environ["HF_TOKEN"],
)

completion = client.chat.completions.create(
    model="meta-llama/Llama-4-Scout-17B-16E-Instruct",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Describe this image in one sentence."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
                    }
                }
            ]
        }
    ],
)

print(completion.choices[0].message)

API 规范

有关对话式图像-文本到文本模型的 API 规范,请参阅聊天补全 API 文档

< > 在 GitHub 上更新