FLAVA

概述

FLAVA 模型由 Amanpreet Singh、Ronghang Hu、Vedanuj Goswami、Guillaume Couairon、Wojciech Galuba、Marcus Rohrbach 和 Douwe Kiela 在 FLAVA: A Foundational Language And Vision Alignment Model 中提出，并被 CVPR 2022 接收。

该论文旨在创建一个单一的统一基础模型，该模型可以跨视觉、语言以及视觉和语言多模态任务工作。

论文摘要如下：

最先进的视觉和视觉-语言模型依赖于大规模的视觉-语言预训练，以在各种下游任务中获得良好的性能。通常，此类模型通常是跨模态（对比）或多模态（早期融合），但不是两者兼有；并且它们通常只针对特定的模态或任务。一个有前途的方向是使用一个单一的整体通用模型作为“基础”，一次性针对所有模态——一个真正的视觉和语言基础模型应该擅长视觉任务、语言任务以及跨模态和多模态视觉和语言任务。我们引入 FLAVA 作为这样一个模型，并在涵盖这些目标模态的 35 个任务中展示了令人印象深刻的性能。

该模型由 aps 贡献。原始代码可以在此处找到。

FlavaConfig

class transformers.FlavaConfig

< 源 >

( image_config: typing.Optional[dict[str, typing.Any]] = None text_config: typing.Optional[dict[str, typing.Any]] = None multimodal_config: typing.Optional[dict[str, typing.Any]] = None image_codebook_config: typing.Optional[dict[str, typing.Any]] = None hidden_size: int = 768 layer_norm_eps: float = 1e-12 projection_dim: int = 768 init_codebook: bool = True logit_scale_init_value: float = 2.6592 initializer_range: float = 0.02 ce_ignore_index: int = -100 mim_weight: float = 1.0 mlm_weight: float = 1.0 global_contrastive_weight: float = 1.0 itm_weight: float = 1.0 mmm_image_weight: float = 1.0 mmm_text_weight: float = 1.0 global_backprop_contrastive: bool = True skip_unmasked_multimodal_encoder: bool = True return_loss: bool = True **kwargs )

参数

text_config (dict, 可选) — 用于初始化 FlavaTextConfig 的配置选项字典。
image_config (dict, 可选) — 用于初始化 FlavaImageConfig 的配置选项字典。
multimodal_config (dict, 可选) — 用于初始化 FlavaMultimodalConfig 的配置选项字典。
hidden_size (int, 可选, 默认为 768) — 编码器层和池化层维度。
layer_norm_eps (float, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon。
projection_dim (int, 可选, 默认为 512) — 文本和图像投影层的维度。
logit_scale_init_value (float, 可选, 默认为 2.6592) — logit_scale 参数的初始值。默认值与原始 FLAVA/CLIP 实现相同。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
ce_ignore_index (int, 可选, 默认为 -100) — 要忽略的交叉熵索引。
mim_weight (float, 可选, 默认为 1.0) — 分配给 MIM（蒙版图像建模）单模态损失的权重
mlm_weight (float, 可选, 默认为 1.0) — 分配给 MLM（蒙版语言建模）单模态损失的权重
global_contrastive_weight (float, 可选, 默认为 1.0) — 分配给全局对比交叉对齐损失的权重。
itm_weight (float, 可选, 默认为 1.0) — 分配给图像-文本匹配多模态损失的权重。
mmm_image_weight (float, 可选, 默认为 1.0) — 分配给 MMM 损失的图像部分的权重。
mmm_text_weight (float, 可选, 默认为 1.0) — 分配给 MMM 损失的文本部分的权重。
global_backprop_contrastive (bool, 可选, 默认为 True) — 是否在对比损失中通过所有工作器进行全局反向传播。
skip_unmasked_multimodal_encoder (bool, 可选, 默认为 True) — 是否跳过运行未掩码的多模态编码器，其输出未被 FLAVA 损失使用。
return_loss (bool, 可选, 默认为 True) — 是否返回损失。
kwargs (可选) — 关键字参数字典。

FlavaConfig 是存储 FlavaModel 配置的配置类。它用于根据指定参数实例化 FLAVA 模型，定义文本模型、图像模型、图像码本和多模态模型配置。使用默认值实例化配置将生成与 FLAVA facebook/flava-full 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请参阅 PretrainedConfig 的文档。

示例

>>> from transformers import FlavaConfig, FlavaModel, FlavaForPreTraining

>>> # Initializing a FlavaConfig with style configuration
>>> configuration = FlavaConfig()

>>> # Initializing a FlavaModel and FlavaForPreTraining model (with random weights) from the style configuration
>>> model = FlavaModel(configuration)
>>> model_pre = FlavaForPreTraining(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config
>>> configuration_pre = model_pre.config

from_configs

< 源 >

( image_config: FlavaImageConfig text_config: FlavaTextConfig multimodal_config: FlavaMultimodalConfig image_codebook_config: FlavaImageCodebookConfig **kwargs ) → FlavaConfig

FlavaConfig

一个配置对象的实例

从 flava 文本模型配置、flava 图像模型配置、flava 多模态模型和 flava 码本模型配置实例化 FlavaConfig（或派生类）。

FlavaTextConfig

class transformers.FlavaTextConfig

< 源 >

( vocab_size: int = 30522 type_vocab_size: int = 2 max_position_embeddings: int = 512 position_embedding_type: str = 'absolute' hidden_size: int = 768 num_hidden_layers: int = 12 num_attention_heads: int = 12 intermediate_size: int = 3072 hidden_act: str = 'gelu' hidden_dropout_prob: float = 0.0 attention_probs_dropout_prob: float = 0.0 initializer_range: float = 0.02 layer_norm_eps: float = 1e-12 pad_token_id: int = 0 qkv_bias: bool = True **kwargs )

参数

vocab_size (int, 可选, 默认为 30522) — BERT 模型的词汇表大小。定义了调用 FlavaTextModel 时可以通过 inputs_ids 表示的不同 token 的数量。
type_vocab_size (int, 可选, 默认为 2) — 调用 FlavaTextModel 时传递的 token_type_ids 的词汇表大小。请注意，即使文本编码器允许 token_type_ids 的值为 2，对于仅文本的预训练和微调，仅使用 1，类似于 RoBERTa。
max_position_embeddings (int, 可选, 默认为 512) — 该模型可能使用的最大序列长度。通常设置为较大值以防万一（例如，512、1024 或 2048）。对于 VL，传递给模型的 max_length 为 77。
position_embedding_type (str, 可选, 默认为 "absolute") — 位置嵌入的类型。选择 "absolute"、"relative_key"、"relative_key_query" 之一。对于位置嵌入，使用 "absolute"。有关 "relative_key" 的更多信息，请参阅 Self-Attention with Relative Position Representations (Shaw et al.)。有关 "relative_key_query" 的更多信息，请参阅 Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的方法 4。
hidden_size (int, 可选, 默认为 768) — 编码器层和池化层的维度。
num_hidden_layers (int, 可选, 默认为 12) — Transformer 编码器中的隐藏层数量。
num_attention_heads (int, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。
intermediate_size (int, 可选, 默认为 3072) — Transformer 编码器中“中间”（即前馈）层的维度。
hidden_act (str 或 function, 可选, 默认为 "gelu") — 编码器和池化器中的非线性激活函数（函数或字符串）。如果为字符串，则支持 "gelu"、"relu"、"selu" 和 "gelu_new"。
hidden_dropout_prob (float, 可选, 默认为 0.1) — 嵌入、编码器和池化器中所有全连接层的 dropout 概率。
attention_probs_dropout_prob (float, 可选, 默认为 0.1) — 注意力概率的 dropout 比率。
initializer_range (float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
layer_norm_eps (float, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon。
image_size (int, 可选, 默认为 224) — 每张图像的大小（分辨率）。
patch_size (int, 可选, 默认为 16) — 每个 patch 的大小（分辨率）。
num_channels (int, 可选, 默认为 3) — 输入通道的数量。
qkv_bias (bool, 可选, 默认为 True) — 是否在查询、键和值中添加偏置。

这是用于存储 FlavaTextModel 配置的配置类。它用于根据指定参数实例化 FLAVA 模型，定义模型架构。

使用默认值实例化配置将生成与 FLAVA facebook/flava-full 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请参阅 PretrainedConfig 的文档。

示例

>>> from transformers import FlavaTextConfig, FlavaTextModel

>>> # Initializing a FlavaTextModel with  style configuration
>>> configuration = FlavaTextConfig()

>>> # Initializing a FlavaTextModel model (with random weights) from the style configuration
>>> model = FlavaTextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Transformers

FLAVA

概述

FlavaConfig

class transformers.FlavaConfig

from_configs

FlavaTextConfig

class transformers.FlavaTextConfig

FlavaImageConfig

class transformers.FlavaImageConfig

FlavaMultimodalConfig

class transformers.FlavaMultimodalConfig

FlavaImageCodebookConfig

class transformers.FlavaImageCodebookConfig

FlavaProcessor

class transformers.FlavaProcessor

batch_decode

decode

FlavaFeatureExtractor

class transformers.FlavaFeatureExtractor

FlavaImageProcessor

class transformers.FlavaImageProcessor

预处理

FlavaImageProcessorFast

class transformers.FlavaImageProcessorFast

预处理

FlavaForPreTraining

class transformers.FlavaForPreTraining

前向传播

FlavaModel

class transformers.FlavaModel

前向传播

get_text_features

get_image_features

FlavaImageCodebook

class transformers.FlavaImageCodebook

前向传播

get_codebook_indices

get_codebook_probs

FlavaTextModel

class transformers.FlavaTextModel

前向传播

FlavaImageModel

class transformers.FlavaImageModel

前向传播

FlavaMultimodalModel

class transformers.FlavaMultimodalModel

前向传播