Transformers 文档

BLIP

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

BLIP

BLIP (Bootstrapped Language-Image Pretraining) 是一个视觉语言预训练 (VLP) 框架，专为理解和生成任务而设计。现有的大多数预训练模型在这两方面都表现平平。它使用一个字幕生成器生成字幕，并使用一个过滤器去除嘈杂的字幕。这提高了训练数据的质量，并更有效地利用了杂乱的网络数据。

你可以在 BLIP 集合中找到所有原始的 BLIP 检查点。

此模型由 ybelkada 贡献。

点击右侧边栏中的 BLIP 模型，了解更多如何将 BLIP 应用于不同视觉语言任务的示例。

以下示例演示了如何使用 Pipeline 或 AutoModel 类进行视觉问答。

流水线

自动模型

资源

请参阅此笔记本，了解如何在自定义数据集上微调 BLIP 进行图像字幕生成。

BlipConfig

class transformers.BlipConfig

< 来源 >

( text_config = None vision_config = None projection_dim = 512 logit_scale_init_value = 2.6592 image_text_hidden_size = 256 label_smoothing = 0.0 **kwargs )

参数

text_config (dict, 可选) — 用于初始化 BlipTextConfig 的配置选项字典。
vision_config (dict, 可选) — 用于初始化 BlipVisionConfig 的配置选项字典。
projection_dim (int, 可选, 默认为 512) — 文本和视觉投影层的维度。
logit_scale_init_value (float, 可选, 默认为 2.6592) — logit_scale 参数的初始值。默认值按照原始 BLIP 实现使用。
image_text_hidden_size (int, 可选, 默认为 256) — 图像-文本融合层隐藏状态的维度。
label_smoothing (float, 可选, 默认为 0.0) — [0.0, 1.0] 范围内的浮点数。指定计算损失时的平滑量，其中 0.0 表示不平滑。目标将成为原始真实值和均匀分布的混合，如 重新思考计算机视觉的 Inception 架构 <https://huggingface.co/papers/1512.00567>__ 中所述。默认值：:math:0.0。
kwargs (可选) — 关键字参数字典。

BlipConfig 是用于存储 BlipModel 配置的配置类。它用于根据指定的参数实例化 BLIP 模型，定义文本模型和视觉模型配置。使用默认值实例化配置将生成与 BLIP-base Salesforce/blip-vqa-base 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import BlipConfig, BlipModel

>>> # Initializing a BlipConfig with Salesforce/blip-vqa-base style configuration
>>> configuration = BlipConfig()

>>> # Initializing a BlipPModel (with random weights) from the Salesforce/blip-vqa-base style configuration
>>> model = BlipModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

>>> # We can also initialize a BlipConfig from a BlipTextConfig and a BlipVisionConfig

>>> # Initializing a BLIPText and BLIPVision configuration
>>> config_text = BlipTextConfig()
>>> config_vision = BlipVisionConfig()

>>> config = BlipConfig.from_text_vision_configs(config_text, config_vision)

from_text_vision_configs

< 来源 >

( text_config: BlipTextConfig vision_config: BlipVisionConfig **kwargs ) → BlipConfig

BlipConfig

一个配置对象的实例

从 blip 文本模型配置和 blip 视觉模型配置实例化 BlipConfig（或派生类）。

BlipTextConfig

class transformers.BlipTextConfig

< 来源 >

( vocab_size = 30524 hidden_size = 768 encoder_hidden_size = 768 intermediate_size = 3072 projection_dim = 768 num_hidden_layers = 12 num_attention_heads = 8 max_position_embeddings = 512 hidden_act = 'gelu' layer_norm_eps = 1e-12 hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 initializer_range = 0.02 bos_token_id = 30522 eos_token_id = 2 pad_token_id = 0 sep_token_id = 102 is_decoder = True use_cache = True label_smoothing = 0.0 **kwargs )

参数

vocab_size (int, 可选, 默认为 30524) — Blip 文本模型的词汇表大小。定义了调用 BlipModel 时传入的 inputs_ids 可以表示的不同标记的数量。
hidden_size (int, 可选, 默认为 768) — 编码器层和池化层的维度。
encoder_hidden_size (int, 可选, 默认为 768) — 视觉模型中编码器层的维度。
intermediate_size (int, 可选, 默认为 3072) — Transformer 编码器中“中间”（即前馈）层的维度。
num_hidden_layers (int, 可选, 默认为 12) — Transformer 编码器中隐藏层的数量。
num_attention_heads (int, 可选, 默认为 8) — Transformer 编码器中每个注意力层的注意力头数量。
max_position_embeddings (int, 可选, 默认为 512) — 该模型可能使用的最大序列长度。通常设置为一个较大的值以防万一（例如，512、1024 或 2048）。
hidden_act (str 或 function, 可选, 默认为 "gelu") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果是字符串，支持 "gelu"、"relu"、"selu" 和 "gelu_new" "gelu"。
layer_norm_eps (float, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon。
hidden_dropout_prob (float, 可选, 默认为 0.0) — 嵌入、编码器和池化器中所有全连接层的 dropout 概率。
attention_dropout (float, 可选, 默认为 0.0) — 注意力概率的 dropout 比率。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态分布初始化器的标准差。
bos_token_id (int, 可选, 默认为 30522) — 序列开始 标记的 ID。
eos_token_id (int, 可选, 默认为 2) — 序列结束 标记的 ID。
pad_token_id (int, 可选, 默认为 0) — 填充 标记的 ID。
sep_token_id (int, 可选, 默认为 102) — 分隔符 标记的 ID。
is_decoder (bool, 可选, 默认为 True) — 模型是否用作解码器。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后一个 key/values 注意力（并非所有模型都使用）。
label_smoothing (float, 可选) — [0.0, 1.0] 范围内的浮点数。指定计算损失时的平滑量，其中 0.0 表示不平滑。目标将成为原始真实值和均匀分布的混合，如 重新思考计算机视觉的 Inception 架构 <https://huggingface.co/papers/1512.00567>__ 中所述。默认值：:math:0.0。

这是用于存储 BlipTextModel 配置的配置类。它用于根据指定的参数实例化 BLIP 文本模型，定义模型架构。使用默认值实例化配置将生成与基本架构使用的 BlipText 类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import BlipTextConfig, BlipTextModel

>>> # Initializing a BlipTextConfig with Salesforce/blip-vqa-base style configuration
>>> configuration = BlipTextConfig()

>>> # Initializing a BlipTextModel (with random weights) from the Salesforce/blip-vqa-base style configuration
>>> model = BlipTextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

BlipVisionConfig

class transformers.BlipVisionConfig

< 来源 >

( hidden_size = 768 intermediate_size = 3072 projection_dim = 512 num_hidden_layers = 12 num_attention_heads = 12 image_size = 384 patch_size = 16 hidden_act = 'gelu' layer_norm_eps = 1e-05 attention_dropout = 0.0 initializer_range = 1e-10 **kwargs )

参数

hidden_size (int, 可选, 默认为 768) — 编码器层和池化层的维度。
intermediate_size (int, 可选, 默认为 3072) — Transformer 编码器中“中间”（即前馈）层的维度。
num_hidden_layers (int, 可选, 默认为 12) — Transformer 编码器中隐藏层的数量。
num_attention_heads (int, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。
image_size (int, 可选, 默认为 384) — 每张图片的大小（分辨率）。
patch_size (int, 可选, 默认为 16) — 每个补丁的大小（分辨率）。
hidden_act (str 或 function, 可选, 默认为 "gelu") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果为字符串，支持 "gelu", "relu", "selu" 和 "gelu_new" "gelu"。
layer_norm_eps (float, 可选, 默认为 1e-5) — 层归一化层使用的 epsilon 值。
attention_dropout (float, 可选, 默认为 0.0) — 注意力概率的 dropout 比率。
initializer_range (float, 可选, 默认为 1e-10) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。

这是用于存储 BlipVisionModel 配置的配置类。它用于根据指定参数实例化 BLIP 视觉模型，定义模型架构。实例化默认配置将生成与 Blip-base Salesforce/blip-vqa-base 架构相似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 的文档。

示例

>>> from transformers import BlipVisionConfig, BlipVisionModel

>>> # Initializing a BlipVisionConfig with Salesforce/blip-vqa-base style configuration
>>> configuration = BlipVisionConfig()

>>> # Initializing a BlipVisionModel (with random weights) from the Salesforce/blip-vqa-base style configuration
>>> model = BlipVisionModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Transformers

BLIP

资源

BlipConfig

class transformers.BlipConfig

from_text_vision_configs

BlipTextConfig

class transformers.BlipTextConfig

BlipVisionConfig

class transformers.BlipVisionConfig

BlipProcessor

class transformers.BlipProcessor

batch_decode

decode

BlipImageProcessor

class transformers.BlipImageProcessor

preprocess

BlipImageProcessorFast

class transformers.BlipImageProcessorFast

preprocess

BlipModel

class transformers.BlipModel

forward

get_text_features

get_image_features

BlipTextModel

class transformers.BlipTextModel

forward

BlipTextLMHeadModel

class transformers.BlipTextLMHeadModel

forward

BlipVisionModel

class transformers.BlipVisionModel

forward

BlipForConditionalGeneration

class transformers.BlipForConditionalGeneration

forward

BlipForImageTextRetrieval

class transformers.BlipForImageTextRetrieval

forward

BlipForQuestionAnswering

class transformers.BlipForQuestionAnswering

forward

TFBlipModel

class transformers.TFBlipModel

调用

get_text_features

get_image_features

TFBlipTextModel

class transformers.TFBlipTextModel

调用

TFBlipTextLMHeadModel

class transformers.TFBlipTextLMHeadModel

调用

TFBlipVisionModel

class transformers.TFBlipVisionModel

调用

TFBlipForConditionalGeneration

class transformers.TFBlipForConditionalGeneration

调用

TFBlipForImageTextRetrieval

class transformers.TFBlipForImageTextRetrieval

调用

TFBlipForQuestionAnswering

class transformers.TFBlipForQuestionAnswering

调用