LXMERT
概述
LXMERT 模型由 Hao Tan 和 Mohit Bansal 在 LXMERT: 从 Transformers 中学习跨模态编码器表示 中提出。 它是一系列双向 Transformer 编码器(一个用于视觉模态,一个用于语言模态,然后一个用于融合两种模态),通过使用掩码语言建模、视觉-语言文本对齐、ROI 特征回归、掩码视觉属性建模、掩码视觉对象建模和视觉问答目标进行预训练。 预训练包括多个多模态数据集:MSCOCO、Visual-Genome + Visual-Genome 问答、VQA 2.0 和 GQA。
论文中的摘要如下
视觉和语言推理需要理解视觉概念、语言语义,最重要的是,理解这两种模态之间的对齐和关系。 因此,我们提出了 LXMERT(从 Transformers 中学习跨模态编码器表示)框架来学习这些视觉和语言连接。 在 LXMERT 中,我们构建了一个大规模 Transformer 模型,该模型包含三个编码器:对象关系编码器、语言编码器和跨模态编码器。 接下来,为了赋予我们的模型连接视觉和语言语义的能力,我们通过五个不同的代表性预训练任务,使用大量的图像和句子对对模型进行预训练:掩码语言建模、掩码对象预测(特征回归和标签分类)、跨模态匹配和图像问答。 这些任务有助于学习模态内和跨模态关系。 在从我们的预训练参数微调后,我们的模型在两个视觉问答数据集(即 VQA 和 GQA)上取得了最先进的结果。 我们还通过将我们的预训练跨模态模型应用于一项具有挑战性的视觉推理任务 NLVR 来展示其泛化性,并将之前的最佳结果提高了 22% 的绝对值(从 54% 提高到 76%)。 最后,我们演示了详细的消融研究,以证明我们的新型模型组件和预训练策略对我们强大的结果做出了重大贡献;并为不同的编码器呈现了一些注意力可视化。
此模型由 eltoto1219 贡献。 原始代码可以在这里找到 这里.
使用技巧
- 视觉特征嵌入不需要使用边界框,任何类型的视觉空间特征都可以。
- LXMERT 输出的语言隐藏状态和视觉隐藏状态都通过跨模态层传递,因此它们包含来自两种模态的信息。 要访问仅关注自身的模态,请从元组中的第一个输入中选择视觉/语言隐藏状态。
- 双向跨模态编码器注意力仅在语言模态用作输入,视觉模态用作上下文向量时才返回注意力值。 此外,虽然跨模态编码器包含每个模态的自我注意力和交叉注意力,但只返回交叉注意力,并且两个自我注意输出都被忽略。
资源
LxmertConfig
class transformers.LxmertConfig
< source >( vocab_size = 30522 hidden_size = 768 num_attention_heads = 12 num_qa_labels = 9500 num_object_labels = 1600 num_attr_labels = 400 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 l_layers = 9 x_layers = 5 r_layers = 5 visual_feat_dim = 2048 visual_pos_dim = 4 visual_loss_normalizer = 6.67 task_matched = True task_mask_lm = True task_obj_predict = True task_qa = True visual_obj_loss = True visual_attr_loss = True visual_feat_loss = True **kwargs )
参数
- vocab_size (
int
, 可选, 默认为 30522) — LXMERT 模型的词汇量大小。定义了在调用 LxmertModel 或 TFLxmertModel 时传递的inputs_ids
可以表示的不同 token 数量。 - hidden_size (
int
, 可选, 默认为 768) — 编码器层和池化层的维度。 - num_attention_heads (
int
, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头的数量。 - num_qa_labels (
int
, 可选, 默认为 9500) — 这表示不同的问答 (QA) 标签的总数。如果使用多个包含 QA 的数据集,用户需要考虑所有数据集的标签总数。 - num_object_labels (
int
, 可选, 默认为 1600) — 这表示 lxmert 可以将池化后的对象特征分类为所属的语义上唯一的对象的总数。 - num_attr_labels (
int
, 可选, 默认为 400) — 这表示 lxmert 可以将池化后的对象特征分类为拥有的语义上唯一的属性的总数。 - intermediate_size (
int
, 可选, 默认为 3072) — Transformer 编码器中“中间”层(通常称为前馈层)的维度。 - hidden_act (
str
或Callable
, 可选, 默认为"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果为字符串,则支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。 - hidden_dropout_prob (
float
, 可选, 默认为 0.1) — 嵌入、编码器和池化器中所有全连接层的 dropout 概率。 - attention_probs_dropout_prob (
float
, 可选, 默认为 0.1) — 注意力概率的 dropout 比例。 - initializer_range (
float
, 可选, 默认为 0.02) — 初始化所有权重矩阵的截断正态初始化的标准差。 - layer_norm_eps (
float
, 可选, 默认为 1e-12) — 层归一化层使用的 epsilon。 - l_layers (
int
, 可选, 默认为 9) — Transformer 语言编码器中的隐藏层数量。 - x_layers (
int
, 可选, 默认为 5) — Transformer 交叉模态编码器中的隐藏层数量。 - r_layers (
int
, 可选, 默认为 5) — Transformer 视觉编码器中的隐藏层数量。 - visual_feat_dim (
int
, 可选, 默认为 2048) — 它表示用作模型输入的池化对象特征的最后一个维度,表示每个对象特征本身的大小。 - visual_pos_dim (
int
, 可选, 默认为 4) — 它表示混合到视觉特征中的空间特征的数量。 默认为 4,因为通常它将表示边界框的位置,例如 (x, y, width, height)。 - visual_loss_normalizer (
float
, 可选, 默认为 6.67) — 它表示每个视觉损失在预训练期间乘以的缩放因子,如果决定使用多个基于视觉的损失目标进行训练。 - task_matched (
bool
, 可选, 默认为True
) — 此任务用于句子-图像匹配。 如果句子正确描述了图像,标签将为 1。 如果句子没有正确描述图像,标签将为 0。 - task_qa (
bool
, optional, defaults toTrue
) — 是否将问答损失添加到目标中。 - visual_obj_loss (
bool
, optional, defaults toTrue
) — 是否计算物体预测损失目标。 - visual_attr_loss (
bool
, optional, defaults toTrue
) — 是否计算属性预测损失目标。 - visual_feat_loss (
bool
, optional, defaults toTrue
) — 是否计算特征回归损失目标。
这是用来存储 LxmertModel 或 TFLxmertModel 配置的配置类。它用于根据指定的参数实例化 LXMERT 模型,定义模型架构。使用默认值实例化配置将产生与 Lxmert unc-nlp/lxmert-base-uncased 架构类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以了解更多信息。
LxmertTokenizer
class transformers.LxmertTokenizer
< source >( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None clean_up_tokenization_spaces = True **kwargs )
参数
- vocab_file (
str
) — 包含词汇表的 文件。 - do_lower_case (
bool
, optional, defaults toTrue
) — 是否在分词时将输入转换为小写。 - do_basic_tokenize (
bool
, optional, defaults toTrue
) — 是否在 WordPiece 之前进行基本分词。 - never_split (
Iterable
, optional) — 分词过程中永远不会拆分的标记集合。仅在do_basic_tokenize=True
时有效 - unk_token (
str
, optional, defaults to"[UNK]"
) — 未知标记。不在词汇表中的标记无法转换为 ID,而是设置为此标记。 - sep_token (
str
, optional, defaults to"[SEP]"
) — 分隔标记,用于从多个序列构建序列,例如用于序列分类的两个序列或用于问答的文本和问题。它也用作使用特殊标记构建的序列的最后一个标记。 - pad_token (
str
, optional, defaults to"[PAD]"
) — 用于填充的标记,例如在对不同长度的序列进行批处理时。 - cls_token (
str
, optional, defaults to"[CLS]"
) — 分类标记,用于进行序列分类(对整个序列进行分类,而不是对每个标记进行分类)。它是使用特殊标记构建的序列的第一个标记。 - mask_token (
str
, optional, defaults to"[MASK]"
) — 用于掩蔽值的标记。这是在使用掩蔽语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。 - tokenize_chinese_chars (
bool
, optional, defaults toTrue
) — 是否对中文汉字进行分词。这可能应该在日语中停用(参见此 问题)。
- strip_accents (
bool
, optional) — 是否去除所有音调符号。如果未指定此选项,则将由lowercase
的值决定(如原始 Lxmert 中)。 - clean_up_tokenization_spaces (
bool
, optional, defaults toTrue
) — 是否在解码后清理空格,清理包括删除潜在的伪影,例如多余的空格。
构建 Lxmert 分词器。基于 WordPiece。
此分词器继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
通过连接和添加特殊标记,从序列或序列对中构建用于序列分类任务的模型输入。Lxmert 序列具有以下格式
- 单个序列:
[CLS] X [SEP]
- 序列对:
[CLS] A [SEP] B [SEP]
将一系列标记(字符串)转换为单个字符串。
create_token_type_ids_from_sequences
< source > ( token_ids_0: List token_ids_1: Optional = None ) → List[int]
从传递的两个序列中创建掩码,用于序列对分类任务。Lxmert 序列
如果 token_ids_1
为 None
,此方法仅返回掩码的第一部分 (0s)。
get_special_tokens_mask
< source > ( token_ids_0: List token_ids_1: Optional = None already_has_special_tokens: bool = False ) → List[int]
从没有添加特殊令牌的令牌列表中检索序列 ID。当使用分词器 prepare_for_model
方法添加特殊令牌时,会调用此方法。
LxmertTokenizerFast
class transformers.LxmertTokenizerFast
< source >( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )
参数
- vocab_file (
str
) — 包含词汇表的的文件。 - do_lower_case (
bool
, 可选, 默认值为True
) — 表示在分词时是否将输入小写。 - unk_token (
str
, 可选, 默认值为"[UNK]"
) — 未知令牌。不在词汇表中的令牌无法转换为 ID,因此将设置为该令牌。 - sep_token (
str
, 可选, 默认值为"[SEP]"
) — 分隔符令牌,用于从多个序列构建序列,例如用于序列分类的两个序列,或者用于问答的文本和问题。它也用作使用特殊令牌构建的序列的最后一个令牌。 - pad_token (
str
, 可选, 默认值为"[PAD]"
) — 用于填充的令牌,例如在对不同长度的序列进行批处理时。 - cls_token (
str
, 可选, 默认值为"[CLS]"
) — 分类器令牌,用于执行序列分类(对整个序列进行分类,而不是对每个令牌进行分类)。当使用特殊令牌构建时,它是序列的第一个令牌。 - mask_token (
str
, 可选, 默认为"[MASK]"
) — 用于掩盖值的标记。 这是在使用掩盖语言建模训练此模型时使用的标记。 这是模型将尝试预测的标记。 - clean_text (
bool
, 可选, 默认为True
) — 是否在分词前清理文本,方法是删除所有控制字符并将所有空格替换为经典空格。 - tokenize_chinese_chars (
bool
, 可选, 默认为True
) — 是否对汉字进行分词。 这在日语中可能需要停用(参见 此问题)。 - strip_accents (
bool
, 可选) — 是否剥离所有变音符号。 如果未指定此选项,则将由lowercase
的值确定(与原始 Lxmert 一样)。 - wordpieces_prefix (
str
, 可选, 默认为"##"
) — 子词的前缀。
构建一个“快速”Lxmert 分词器(由 HuggingFace 的 tokenizers 库支持)。 基于 WordPiece。
此分词器继承自 PreTrainedTokenizerFast,其中包含大多数主要方法。 用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< 源代码 > ( token_ids_0 token_ids_1 = None ) → List[int]
通过连接和添加特殊标记,从序列或序列对中构建用于序列分类任务的模型输入。Lxmert 序列具有以下格式
- 单个序列:
[CLS] X [SEP]
- 序列对:
[CLS] A [SEP] B [SEP]
Lxmert 特定输出
class transformers.models.lxmert.modeling_lxmert.LxmertModelOutput
< 源代码 >( language_output: Optional = None vision_output: Optional = None pooled_output: Optional = None language_hidden_states: Optional = None vision_hidden_states: Optional = None language_attentions: Optional = None vision_attentions: Optional = None cross_encoder_attentions: Optional = None )
参数
- language_output (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 语言编码器最后一层输出的隐藏状态序列。 - vision_output (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 视觉编码器最后一层输出的隐藏状态序列。 - pooled_output (
torch.FloatTensor
形状为(batch_size, hidden_size)
) — 序列第一个 token (分类、CLS、token) 的最后一层隐藏状态,通过线性层和 Tanh 激活函数进一步处理。线性 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
元组 (一个用于输入特征 + 一个用于每个跨模态层输出) ,形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
元组 (一个用于输入特征 + 一个用于每个跨模态层输出) ,形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
元组 (每个层一个) ,形状为(batch_size, num_heads, sequence_length, sequence_length)
。 自注意力头中用于计算加权平均值的注意力 softmax 后的权重。
Lxmert 的输出包含语言、视觉和跨模态编码器的最后一个隐藏状态、池化输出和注意力概率。(注意:Lxmert 中的视觉编码器被称为“关系”编码器)
class transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput
< source >( loss: Optional = None prediction_logits: Optional = None cross_relationship_score: Optional = None question_answering_score: Optional = None language_hidden_states: Optional = None vision_hidden_states: Optional = None language_attentions: Optional = None vision_attentions: Optional = None cross_encoder_attentions: Optional = None )
参数
- loss (optional, returned when
labels
is provided, 形状为(1,)
的torch.FloatTensor
) — 总损失,作为掩码语言建模损失和下一个序列预测(分类)损失的总和。 - prediction_logits (形状为
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 语言建模头的预测分数(SoftMax 之前的每个词汇标记的分数)。 - cross_relationship_score (形状为
(batch_size, 2)
的torch.FloatTensor
) — 文本匹配目标(分类)头的预测分数(SoftMax 之前的真/假延续分数)。 - question_answering_score (形状为
(batch_size, n_qa_answers)
的torch.FloatTensor
) — 问答目标(分类)的预测分数。 - language_hidden_states (
tuple(torch.FloatTensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(一个用于输入特征,一个用于每个跨模态层的输出)。 - vision_hidden_states (
tuple(torch.FloatTensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(一个用于输入特征,一个用于每个跨模态层的输出)。 - language_attentions (
tuple(torch.FloatTensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)。注意力softmax之后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)。注意力softmax之后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)。注意力softmax之后的注意力权重,用于计算自注意力头中的加权平均值。
类型为LxmertForPreTraining的输出。
class transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput
< source >( loss: Optional = None question_answering_score: Optional = None language_hidden_states: Optional = None vision_hidden_states: Optional = None language_attentions: Optional = None vision_attentions: Optional = None cross_encoder_attentions: Optional = None )
参数
- loss (optional, returned when
labels
is provided,torch.FloatTensor
of shape(1,)
) — 掩码语言建模损失和下一个序列预测(分类)损失之和的总损失。k. - question_answering_score (
torch.FloatTensor
of shape(batch_size, n_qa_answers)
, optional) — 问题回答目标(分类)的预测分数。 - language_hidden_states (
tuple(torch.FloatTensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(一个用于输入特征,一个用于每个跨模态层的输出)。 - vision_hidden_states (
tuple(torch.FloatTensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(一个用于输入特征,一个用于每个跨模态层的输出)。 - language_attentions (
tuple(torch.FloatTensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, optional, returned whenoutput_attentions=True
is passed or whenconfig.output_attentions=True
) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每个层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
class transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput
< source >( language_output: tf.Tensor | None = None vision_output: tf.Tensor | None = None pooled_output: tf.Tensor | None = None language_hidden_states: Tuple[tf.Tensor] | None = None vision_hidden_states: Tuple[tf.Tensor] | None = None language_attentions: Tuple[tf.Tensor] | None = None vision_attentions: Tuple[tf.Tensor] | None = None cross_encoder_attentions: Tuple[tf.Tensor] | None = None )
参数
- language_output (
tf.Tensor
of shape(batch_size, sequence_length, hidden_size)
) — 语言编码器最后一层的输出处的隐藏状态序列。 - vision_output (
tf.Tensor
of shape(batch_size, sequence_length, hidden_size)
) — 视觉编码器最后一层的输出处的隐藏状态序列。 - pooled_output (
tf.Tensor
of shape(batch_size, hidden_size)
) — 序列的第一个标记(分类、CLS 标记)的最后一层隐藏状态,经过线性层和 Tanh 激活函数的进一步处理。 线性 - language_hidden_states (
tuple(tf.Tensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 形状为(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(一个用于输入特征,另一个用于每个跨模态层的输出)。 - vision_hidden_states (
tuple(tf.Tensor)
, optional, returned whenoutput_hidden_states=True
is passed or whenconfig.output_hidden_states=True
) — 形状为(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(一个用于输入特征,另一个用于每个跨模态层的输出)。 - language_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(每层一个)。注意力softmax后的注意力权重,用于计算自注意力头的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(每层一个)。注意力softmax后的注意力权重,用于计算自注意力头的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元组(每层一个)。注意力softmax后的注意力权重,用于计算自注意力头的加权平均值。
Lxmert 的输出包含语言、视觉和跨模态编码器的最后一个隐藏状态、池化输出和注意力概率。(注意:Lxmert 中的视觉编码器被称为“关系”编码器)
class transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput
< source >( loss: tf.Tensor | None = None prediction_logits: tf.Tensor | None = None cross_relationship_score: tf.Tensor | None = None question_answering_score: tf.Tensor | None = None language_hidden_states: Tuple[tf.Tensor] | None = None vision_hidden_states: Tuple[tf.Tensor] | None = None language_attentions: Tuple[tf.Tensor] | None = None vision_attentions: Tuple[tf.Tensor] | None = None cross_encoder_attentions: Tuple[tf.Tensor] | None = None )
参数
- loss (可选, 当提供
labels
时返回, 形状为(1,)
的tf.Tensor
) — 总损失,作为掩码语言建模损失和下一个序列预测(分类)损失的总和。 - prediction_logits (形状为
(batch_size, sequence_length, config.vocab_size)
的tf.Tensor
) — 语言建模头的预测分数(SoftMax 之前的每个词汇表标记的分数)。 - cross_relationship_score (形状为
(batch_size, 2)
的tf.Tensor
) — 文本匹配目标(分类)头的预测分数(SoftMax 之前的真/假延续分数)。 - question_answering_score (形状为
(batch_size, n_qa_answers)
的tf.Tensor
) — 问答目标(分类)的预测分数。 - language_hidden_states (
tuple(tf.Tensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的tf.Tensor
元组(一个用于输入特征,一个用于每个跨模态层的输出)。 - vision_hidden_states (
tuple(tf.Tensor)
, 可选, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
元组(一个用于输入特征,一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。 注意力softmax后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。 注意力softmax后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。 注意力softmax后的注意力权重,用于计算自注意力头中的加权平均值。
类型为LxmertForPreTraining的输出。
LxmertModel
class transformers.LxmertModel
< 源代码 >( config )
参数
- config (LxmertConfig) — 模型配置类,包含模型的所有参数。 使用配置文件初始化不会加载与模型相关的权重,只会加载配置。 请查看 from_pretrained() 方法来加载模型权重。
不带任何特定头的 Lxmert 模型,输出原始隐藏状态。
LXMERT 模型在 LXMERT:从 Transformers 学习跨模态编码器表示 中由 Hao Tan 和 Mohit Bansal 提出。 它是一种视觉和语言 Transformer 模型,在各种多模态数据集上进行预训练,包括 GQA、VQAv2.0、MSCOCO 标题和视觉基因组,使用掩码语言建模、感兴趣区域特征回归、问答属性预测的交叉熵损失以及对象标签预测的组合。
该模型继承自 PreTrainedModel。 查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入的大小、修剪头等)。
该模型也是 PyTorch torch.nn.Module 子类。 将它用作普通的 PyTorch 模块,并参考 PyTorch 文档了解有关一般使用和行为的所有事项。
正向传播
< 源代码 > ( input_ids: 可选 = None visual_feats: 可选 = None visual_pos: 可选 = None attention_mask: 可选 = None visual_attention_mask: 可选 = None token_type_ids: 可选 = None inputs_embeds: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) → transformers.models.lxmert.modeling_lxmert.LxmertModelOutput 或者 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 输入序列词语在词汇表中的索引。索引可以通过 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- visual_feats (
torch.FloatTensor
形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示视觉特征。它们是使用更快的 RCNN 模型从边界框中 ROI 池化后的目标特征)目前 transformers 库不提供这些特征。
- visual_pos (
torch.FloatTensor
形状为(batch_size, num_visual_features, visual_pos_dim)
) — 此输入表示与其相对(通过索引)视觉特征相对应的空间特征。预训练的 LXMERT 模型期望这些空间特征是 0 到目前 transformers 库不提供这些特征。
- attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 掩码,用于避免对填充词语索引执行注意力操作。掩码值在[0, 1]
中选择:- 1 表示未被掩盖的词语,
- 0 表示被掩盖的词语。
- visual_attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 掩码,用于避免对填充词语索引执行注意力操作。掩码值在[0, 1]
中选择:- 1 表示未被掩盖的词语,
- 0 表示被掩盖的词语。
- token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 段落词语索引,用于指示输入的第一部分和第二部分。索引在[0, 1]
中选择:- 0 表示句子 A 词语,
- 1 表示句子 B 词语。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望比模型的内部嵌入查找矩阵对如何将input_ids
索引转换为相关向量有更多控制,这将非常有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量中的 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个简单的元组。
Returns
transformers.models.lxmert.modeling_lxmert.LxmertModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.lxmert.modeling_lxmert.LxmertModelOutput 或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或者当 config.return_dict=False
时),包含取决于配置 (LxmertConfig) 和输入的各种元素。
- language_output (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 语言编码器最后一层输出的隐藏状态序列。 - vision_output (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 视觉编码器最后一层输出的隐藏状态序列。 - pooled_output (
torch.FloatTensor
形状为(batch_size, hidden_size)
) — 序列第一个词元(分类,CLS,词元)的最后一层隐藏状态,经过线性层和 Tanh 激活函数进一步处理。线性 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或者当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征,一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或者当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征,一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或者当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或者当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或者当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均。
The LxmertModel 正向传播方法,重写了 __call__
特殊方法。
尽管正向传播的配方需要在此函数内定义,但之后应该调用 Module
实例而不是这个函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
例子
>>> from transformers import AutoTokenizer, LxmertModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> model = LxmertModel.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
LxmertForPreTraining
class transformers.LxmertForPreTraining
< 源代码 >( config )
参数
- config (LxmertConfig) — 模型配置类,包含模型的所有参数。用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法来加载模型权重。
带有指定预训练头的 Lxmert 模型。
LXMERT 模型在 LXMERT:从 Transformers 学习跨模态编码器表示 中由 Hao Tan 和 Mohit Bansal 提出。 它是一种视觉和语言 Transformer 模型,在各种多模态数据集上进行预训练,包括 GQA、VQAv2.0、MSCOCO 标题和视觉基因组,使用掩码语言建模、感兴趣区域特征回归、问答属性预测的交叉熵损失以及对象标签预测的组合。
该模型继承自 PreTrainedModel。 查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入的大小、修剪头等)。
该模型也是 PyTorch torch.nn.Module 子类。 将它用作普通的 PyTorch 模块,并参考 PyTorch 文档了解有关一般使用和行为的所有事项。
正向传播
< 源代码 > ( input_ids: Optional = None visual_feats: Optional = None visual_pos: Optional = None attention_mask: Optional = None visual_attention_mask: Optional = None token_type_ids: Optional = None inputs_embeds: Optional = None labels: Optional = None obj_labels: Optional = None matched_label: Optional = None ans: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None **kwargs ) → transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- visual_feats (
torch.FloatTensor
形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示视觉特征。它们使用 Faster-RCNN 模型从边界框中获取 ROI 池化对象特征)目前,Transformers 库没有提供这些功能。
- visual_pos (
torch.FloatTensor
形状为(batch_size, num_visual_features, visual_pos_dim)
) — 此输入表示与其相关联的(通过索引)视觉特征的空间特征。预训练的 LXMERT 模型期望这些空间特征是 0 到范围内的归一化边界框。 目前,Transformers 库没有提供这些功能。
- attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
,可选) — 用于避免对填充标记索引执行注意的掩码。掩码值选择在[0, 1]
中:- 1 表示未掩码的标记,
- 0 表示掩码的标记。
- visual_attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
,可选) — 用于避免对填充标记索引执行注意的掩码。掩码值选择在[0, 1]
中:- 1 表示未掩码的标记,
- 0 表示掩码的标记。
- token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
,可选) — 段标记索引,用于指示输入的第一部分和第二部分。索引选择在[0, 1]
中:- 0 表示句子 A 标记,
- 1 表示句子 B 标记。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想要比模型的内部嵌入查找矩阵对如何将input_ids
索引转换为关联向量有更多控制权,这很有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
,可选) — 是否返回 ModelOutput - labels (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]
中(参见input_ids
文档字符串)索引设置为-100
的标记将被忽略(掩码),损失仅针对标签在[0, ..., config.vocab_size]
中的标记计算。 - obj_labels (
Dict[Str -- Tuple[Torch.FloatTensor, Torch.FloatTensor]]
, 可选): 每个键都以每个视觉损失的名称命名,元组中的每个元素分别对应标签 ID 和标签分数,形状分别为(batch_size, num_features)
和(batch_size, num_features, visual_feature_dim)
- matched_label (
torch.LongTensor
形状为(batch_size,)
, 可选) — 用于计算文本输入是否与图像匹配(分类)损失的标签。输入应为句子对(参见input_ids
文档字符串)索引应在[0, 1]
中:- 0 表示句子与图像不匹配,
- 1 表示句子与图像匹配。
- ans (
Torch.Tensor
形状为(batch_size)
, 可选) — 正确答案的一热表示 可选
Returns
transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含取决于配置 (LxmertConfig) 和输入的各种元素。
- loss (可选, 当提供
labels
时返回,torch.FloatTensor
形状为(1,)
) — 总损失,为掩码语言建模损失和下一个序列预测(分类)损失的总和。 - prediction_logits (
torch.FloatTensor
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前的每个词汇标记的分数)。 - cross_relationship_score (
torch.FloatTensor
形状为(batch_size, 2)
) — 文本匹配目标(分类)头的预测分数(SoftMax 之前的 True/False 延续分数)。 - question_answering_score (
torch.FloatTensor
形状为(batch_size, n_qa_answers)
) — 问答目标(分类)的预测分数。 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或者当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征,一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或者当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征,一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或者当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或者当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或者当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均。
The LxmertForPreTraining forward method, overrides the __call__
special method.
尽管正向传播的配方需要在此函数内定义,但之后应该调用 Module
实例而不是这个函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
LxmertForQuestionAnswering
class transformers.LxmertForQuestionAnswering
< 源代码 >( config )
参数
- config (LxmertConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
具有视觉-问答头的 Lxmert 模型,用于下游 QA 任务
LXMERT 模型在 LXMERT:从 Transformers 学习跨模态编码器表示 中由 Hao Tan 和 Mohit Bansal 提出。 它是一种视觉和语言 Transformer 模型,在各种多模态数据集上进行预训练,包括 GQA、VQAv2.0、MSCOCO 标题和视觉基因组,使用掩码语言建模、感兴趣区域特征回归、问答属性预测的交叉熵损失以及对象标签预测的组合。
该模型继承自 PreTrainedModel。 查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入的大小、修剪头等)。
该模型也是 PyTorch torch.nn.Module 子类。 将它用作普通的 PyTorch 模块,并参考 PyTorch 文档了解有关一般使用和行为的所有事项。
正向传播
< 源代码 > ( input_ids: 可选 = None visual_feats: 可选 = None visual_pos: 可选 = None attention_mask: 可选 = None visual_attention_mask: 可选 = None token_type_ids: 可选 = None inputs_embeds: 可选 = None labels: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) → transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 输入序列词元在词汇表中的索引。索引可以通过 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- visual_feats (
torch.FloatTensor
形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示视觉特征。它们是使用更快的 RCNN 模型从边界框中 ROI 池化的目标特征)这些目前由 transformers 库提供。
- visual_pos (
torch.FloatTensor
形状为(batch_size, num_visual_features, visual_pos_dim)
) — 此输入表示与其相对(通过索引)视觉特征相对应的空间特征。预训练的 LXMERT 模型期望这些空间特征是 0 到这些目前由 transformers 库提供。
- attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 掩码以避免对填充词元索引执行注意力。掩码值选择在[0, 1]
中:- 1 代表未被掩码的词元,
- 0 代表被掩码的词元。
- visual_attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
, 可选) — 掩码以避免对填充词元索引执行注意力。掩码值选择在[0, 1]
中:- 1 代表未被掩码的词元,
- 0 代表被掩码的词元。
- token_type_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 段词元索引,用于指示输入的第一部分和第二部分。索引选择在[0, 1]
中:- 0 代表句子 A 词元,
- 1 代表句子 B 词元。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对如何将input_ids
索引转换为关联向量进行更多控制,而不是模型的内部嵌入查找矩阵,这将很有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是普通元组。 - labels (
Torch.Tensor
形状为(batch_size)
,可选) — 正确答案的独热编码表示
Returns
transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput 或 torch.FloatTensor
元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含根据配置 (LxmertConfig) 和输入的不同元素。
- loss (可选,当提供
labels
时返回,形状为(1,)
的torch.FloatTensor
) — 总损失,作为掩码语言建模损失和下一个序列预测(分类)损失的总和。k。 - question_answering_score (形状为
(batch_size, n_qa_answers)
的torch.FloatTensor
,可选) — 问题解答目标(分类)的预测得分。 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或者当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征,一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或者当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于输入特征,一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或者当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或者当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或者当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均。
__call__
特殊方法重写了 LxmertForQuestionAnswering 正向方法。
尽管正向传播的配方需要在此函数内定义,但之后应该调用 Module
实例而不是这个函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
例子
>>> from transformers import AutoTokenizer, LxmertForQuestionAnswering
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> model = LxmertForQuestionAnswering.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"
>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()
>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])
>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss
TFLxmertModel
class transformers.TFLxmertModel
< 源代码 >( config *inputs **kwargs )
参数
- config (LxmertConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
不带任何特定头的 Lxmert 模型,输出原始隐藏状态。
LXMERT 模型在 LXMERT: Learning Cross-Modality Encoder Representations from Transformers 中由 Hao Tan 和 Mohit Bansal 提出。它是一个视觉和语言 transformer 模型,在各种多模态数据集上进行了预训练,包括 GQA、VQAv2.0、MCSCOCO 标题和 Visual Genome,使用掩码语言建模、兴趣区域特征回归、问题解答属性预测的交叉熵损失和对象标签预测的组合。
该模型也是 keras.Model 子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以了解所有与一般用法和行为相关的事项。
transformers
中的 TensorFlow 模型和层接受两种格式作为输入
- 将所有输入作为关键字参数(类似 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
支持第二种格式的原因是,Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,在使用 model.fit()
等方法时,一切应该“正常工作” — 只需将您的输入和标签传递给 model.fit()
支持的任何格式!但是,如果您想在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建您自己的层或模型时,您可以使用三种方法来收集第一个位置参数中的所有输入张量
- 单个张量,其中只有
input_ids
,没有其他内容:model(input_ids)
- 长度可变的列表,其中包含一个或多个输入张量,按照文档字符串中给出的顺序排列:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 包含一个或多个输入张量的字典,这些张量与文档字符串中给出的输入名称相关联:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,在使用 子类化 创建模型和层时,您无需担心任何这些问题,因为您可以像对任何其他 Python 函数一样传递输入!
调用
< 源代码 > ( input_ids: TFModelInputType | None = None visual_feats: tf.Tensor | None = None visual_pos: tf.Tensor | None = None attention_mask: np.ndarray | tf.Tensor | None = None visual_attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput or tuple(tf.Tensor)
参数
- input_ids (
np.ndarray
或tf.Tensor
,形状为(batch_size, sequence_length)
) — 输入序列词元在词表的索引。索引可以通过 AutoTokenizer 获得。有关详细信息,请参阅 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- visual_feats (
tf.Tensor
,形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示视觉特征。它们是使用 Faster R-CNN 模型从边界框中提取的 ROI 池化目标特征)目前,Transformers 库不提供这些特征。
- visual_pos (
tf.Tensor
,形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示与它们相对(通过索引)视觉特征对应的空间特征。预训练的 LXMERT 模型期望这些空间特征是 0 到目前,Transformers 库不提供这些特征。
- attention_mask (
tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — 掩码,用于避免对填充词元索引执行注意力操作。掩码值从[0, 1]
中选择:- 1 表示未被掩码的词元,
- 0 表示被掩码的词元。
- visual_attention_mask (
tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — M掩码,用于避免对填充词元索引执行注意力操作。掩码值从[0, 1]
中选择:- 1 表示未被掩码的词元,
- 0 表示被掩码的词元。
- token_type_ids (
tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — 段词元索引,用于指示输入的第一部分和第二部分。索引从[0, 1]
中选择:- 0 对应于 句子 A 的词元,
- 1 对应于 句子 B 的词元。
- inputs_embeds (
tf.Tensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想对如何将input_ids
索引转换为相关向量进行更多控制,而不是模型的内部嵌入查找矩阵,这将很有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量中的attentions
。此参数仅能在 Eager 模式下使用,在 Graph 模式下将使用配置中的值。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。此参数只能在 eager 模式下使用,在图模式下将使用配置中的值。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个简单的元组。此参数可以在 eager 模式下使用,在图模式下,该值将始终设置为 True。 - training (
bool
, 可选,默认值为False
) — 是否以训练模式使用模型(某些模块,如 dropout 模块,在训练和评估之间具有不同的行为)。
Returns
transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput 或 tuple(tf.Tensor)
一个 transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput 或一个 tf.Tensor
的元组(如果传递了return_dict=False
或当config.return_dict=False
时),包含取决于配置 (LxmertConfig) 和输入的各种元素。
- language_output (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
) — 语言编码器最后一层的输出处的隐藏状态序列。 - vision_output (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
) — 视觉编码器最后一层的输出处的隐藏状态序列。 - pooled_output (
tf.Tensor
形状为(batch_size, hidden_size)
) — 序列第一个标记 (分类、CLS 标记) 的最后一层隐藏状态,经由线性层和 Tanh 激活函数进一步处理。线性 - language_hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
The TFLxmertModel forward method, overrides the __call__
special method.
尽管正向传播的配方需要在此函数内定义,但之后应该调用 Module
实例而不是这个函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
例子
>>> from transformers import AutoTokenizer, TFLxmertModel
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> model = TFLxmertModel.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)
>>> last_hidden_states = outputs.last_hidden_state
TFLxmertForPreTraining
class transformers.TFLxmertForPreTraining
< source >( config *inputs **kwargs )
参数
- config (LxmertConfig) — 模型配置类,包含模型的所有参数。使用配置文件进行初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
Lxmert 模型,顶部带有一个语言建模
头。
LXMERT 模型在 LXMERT: Learning Cross-Modality Encoder Representations from Transformers 中由 Hao Tan 和 Mohit Bansal 提出。它是一个视觉和语言 transformer 模型,在各种多模态数据集上进行了预训练,包括 GQA、VQAv2.0、MCSCOCO 标题和 Visual Genome,使用掩码语言建模、兴趣区域特征回归、问题解答属性预测的交叉熵损失和对象标签预测的组合。
该模型也是 keras.Model 子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以了解所有与一般用法和行为相关的事项。
transformers
中的 TensorFlow 模型和层接受两种格式作为输入
- 将所有输入作为关键字参数(类似 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
支持第二种格式的原因是,Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,在使用 model.fit()
等方法时,一切应该“正常工作” — 只需将您的输入和标签传递给 model.fit()
支持的任何格式!但是,如果您想在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建您自己的层或模型时,您可以使用三种方法来收集第一个位置参数中的所有输入张量
- 单个张量,其中只有
input_ids
,没有其他内容:model(input_ids)
- 长度可变的列表,其中包含一个或多个输入张量,按照文档字符串中给出的顺序排列:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 包含一个或多个输入张量的字典,这些张量与文档字符串中给出的输入名称相关联:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,在使用 子类化 创建模型和层时,您无需担心任何这些问题,因为您可以像对任何其他 Python 函数一样传递输入!
调用
< source > ( input_ids: TFModelInputType | None = None visual_feats: tf.Tensor | None = None visual_pos: tf.Tensor | None = None attention_mask: tf.Tensor | None = None visual_attention_mask: tf.Tensor | None = None token_type_ids: tf.Tensor | None = None inputs_embeds: tf.Tensor | None = None masked_lm_labels: tf.Tensor | None = None obj_labels: Dict[str, Tuple[tf.Tensor, tf.Tensor]] | None = None matched_label: tf.Tensor | None = None ans: tf.Tensor | None = None output_attentions: bool | None = None output_hidden_states: bool | None = None return_dict: bool | None = None training: bool = False ) → transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput or tuple(tf.Tensor)
参数
- input_ids (
np.ndarray
或tf.Tensor
形状为(batch_size, sequence_length)
) — 输入序列令牌在词汇表中的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- visual_feats (
tf.Tensor
形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示视觉特征。它们是使用 faster-RCNN 模型从边界框中提取的 ROI 池化对象特征)这些目前由 transformers 库提供。
- visual_pos (
tf.Tensor
形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示与其相对(通过索引)视觉特征相对应的空间特征。预训练的 LXMERT 模型期望这些空间特征是 0 到这些目前由 transformers 库提供。
- attention_mask (
tf.Tensor
形状为(batch_size, sequence_length)
,可选) — 掩码,用于避免对填充令牌索引执行注意力。掩码值在[0, 1]
中选择:- 1 表示未被掩码的令牌,
- 0 表示被掩码的令牌。
- visual_attention_mask (
tf.Tensor
形状为(batch_size, sequence_length)
,可选) — 掩码,用于避免对填充令牌索引执行注意力。掩码值在[0, 1]
中选择:- 1 表示未被掩码的令牌,
- 0 表示被掩码的令牌。
- token_type_ids (
tf.Tensor
形状为(batch_size, sequence_length)
,可选) — 段令牌索引,用于指示输入的第一部分和第二部分。索引在[0, 1]
中选择:- 0 对应于句子 A 令牌,
- 1 对应于句子 B 令牌。
- inputs_embeds (
tf.Tensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您想比模型的内部嵌入查找矩阵更好地控制如何将input_ids
索引转换为关联向量,这将非常有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参见返回张量下的attentions
。此参数仅可在 eager 模式下使用,在图模式下,将使用配置中的值。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。此参数只能在急切模式下使用,在图形模式下,将使用配置中的值。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通元组。此参数可以在急切模式下使用,在图形模式下,该值将始终设置为 True。 - training (
bool
, 可选,默认为False
) — 是否在训练模式下使用模型(某些模块,如 dropout 模块,在训练和评估之间具有不同的行为)。 - masked_lm_labels (
tf.Tensor
形状为(batch_size, sequence_length)
, 可选) — 用于计算遮蔽语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]
中(请参阅input_ids
文档字符串)索引设置为-100
的标记将被忽略(遮蔽),损失仅针对标签在[0, ..., config.vocab_size]
中的标记进行计算 - obj_labels (
Dict[Str -- Tuple[tf.Tensor, tf.Tensor]]
, 可选,默认为None
): 每个键以每个视觉损失的名称命名,元组的每个元素分别对应标签 ID 和标签分数的形状(batch_size, num_features)
和(batch_size, num_features, visual_feature_dim)
- matched_label (
tf.Tensor
形状为(batch_size,)
, 可选) — 用于计算文本输入是否与图像匹配(分类)损失的标签。输入应为句子对(请参阅input_ids
文档字符串)索引应在[0, 1]
中:- 0 表示句子与图像不匹配,
- 1 表示句子与图像匹配。
- ans (
tf.Tensor
形状为(batch_size)
, 可选,默认为None
) — 正确答案的 one-hot 表示 可选
Returns
transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput 或 tuple(tf.Tensor)
一个 transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput 或 tf.Tensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含取决于配置 (LxmertConfig) 和输入的各种元素。
- loss (可选,在提供
labels
时返回,tf.Tensor
形状为(1,)
) — 总损失,作为遮蔽语言建模损失和下一个序列预测(分类)损失的总和。 - prediction_logits (
tf.Tensor
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(在 SoftMax 之前的每个词汇标记的分数)。 - cross_relationship_score (
tf.Tensor
形状为(batch_size, 2)
) — 文本匹配目标(分类)头的预测分数(在 SoftMax 之前的 True/False 延续分数)。 - question_answering_score (
tf.Tensor
形状为(batch_size, n_qa_answers)
) — 问答目标(分类)的预测分数。 - language_hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(一个用于输入特征 + 一个用于每个跨模态层的输出),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFLxmertForPreTraining 前向方法,覆盖 __call__
特殊方法。
尽管正向传播的配方需要在此函数内定义,但之后应该调用 Module
实例而不是这个函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。