Transformers 文档
LXMERT
并获得增强的文档体验
开始使用
LXMERT
概述
LXMERT 模型在 LXMERT: Learning Cross-Modality Encoder Representations from Transformers 中由 Hao Tan 和 Mohit Bansal 提出。 它是一系列双向 Transformer 编码器(一个用于视觉模态,一个用于语言模态,然后一个用于融合两种模态),使用掩码语言建模、视觉-语言文本对齐、ROI 特征回归、掩码视觉属性建模、掩码视觉对象建模和视觉问题解答目标的组合进行预训练。 预训练包括多个多模态数据集:MSCOCO、Visual-Genome + Visual-Genome 问答、VQA 2.0 和 GQA。
论文摘要如下
视觉和语言推理需要理解视觉概念、语言语义,以及最重要的是这两种模态之间的对齐和关系。 因此,我们提出了 LXMERT(从 Transformers 学习跨模态编码器表示)框架来学习这些视觉和语言的连接。 在 LXMERT 中,我们构建了一个大型 Transformer 模型,它由三个编码器组成:对象关系编码器、语言编码器和跨模态编码器。 接下来,为了赋予我们的模型连接视觉和语言语义的能力,我们通过五个不同的代表性预训练任务,使用大量的图像和句子对模型进行预训练:掩码语言建模、掩码对象预测(特征回归和标签分类)、跨模态匹配和图像问题解答。 这些任务有助于学习模态内和跨模态关系。 在从我们的预训练参数进行微调后,我们的模型在两个视觉问题解答数据集(即 VQA 和 GQA)上取得了最先进的结果。 我们还通过将我们的预训练跨模态模型应用于具有挑战性的视觉推理任务 NLVR,展示了其通用性,并将之前的最佳结果绝对提高了 22%(从 54% 提高到 76%)。 最后,我们进行了详细的消融研究,以证明我们新颖的模型组件和预训练策略都对我们的强大结果做出了重大贡献;并为不同的编码器展示了几个注意力可视化。
此模型由 eltoto1219 贡献。 原始代码可以在这里找到。
使用技巧
- 边界框不是必须用于视觉特征嵌入,任何类型的视觉空间特征都可以工作。
- LXMERT 输出的语言隐藏状态和视觉隐藏状态都通过跨模态层传递,因此它们包含来自两种模态的信息。 要访问仅关注自身的模态,请从元组中的第一个输入中选择视觉/语言隐藏状态。
- 仅当语言模态用作输入,视觉模态用作上下文向量时,双向跨模态编码器注意力才返回注意力值。 此外,虽然跨模态编码器包含每个各自模态的自注意力和跨注意力,但仅返回跨注意力,并且忽略自注意力输出。
资源
LxmertConfig
class transformers.LxmertConfig
< 源代码 >( vocab_size = 30522 hidden_size = 768 num_attention_heads = 12 num_qa_labels = 9500 num_object_labels = 1600 num_attr_labels = 400 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 l_layers = 9 x_layers = 5 r_layers = 5 visual_feat_dim = 2048 visual_pos_dim = 4 visual_loss_normalizer = 6.67 task_matched = True task_mask_lm = True task_obj_predict = True task_qa = True visual_obj_loss = True visual_attr_loss = True visual_feat_loss = True **kwargs )
参数
- vocab_size (
int
, 可选, 默认为 30522) — LXMERT 模型的词汇表大小。 定义了在调用 LxmertModel 或 TFLxmertModel 时,通过inputs_ids
传递的可以表示的不同标记的数量。 - hidden_size (
int
, 可选, 默认为 768) — 编码器层和池化器层的维度。 - num_attention_heads (
int
, 可选, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数。 - num_qa_labels (
int
, 可选, 默认为 9500) — 这表示问题解答 (QA) 标签的总数。 如果使用多个带有 QA 的数据集,用户将需要考虑所有数据集总共拥有的标签总数。 - num_object_labels (
int
, 可选, 默认为 1600) — 这表示 lxmert 将能够将池化对象特征分类为所属的语义上唯一对象的总数。 - num_attr_labels (
int
, optional, defaults to 400) — 这代表了lxmert能够将池化对象特征分类为拥有的语义上独特的属性总数。 - intermediate_size (
int
, optional, defaults to 3072) — Transformer 编码器中“中间”(通常称为前馈)层的维度。 - hidden_act (
str
或Callable
, optional, defaults to"gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果为字符串,则支持"gelu"
、"relu"
、"silu"
和"gelu_new"
。 - hidden_dropout_prob (
float
, optional, defaults to 0.1) — 嵌入层、编码器和池化器中所有全连接层的 dropout 概率。 - attention_probs_dropout_prob (
float
, optional, defaults to 0.1) — attention 概率的 dropout 比率。 - max_position_embeddings (
int
, optional, defaults to 512) — 此模型可能使用的最大序列长度。通常将其设置为较大的值以防万一(例如,512 或 1024 或 2048)。 - type_vocab_size (
int
, optional, defaults to 2) — 传递到 BertModel 中的 token_type_ids 的词汇表大小。 - initializer_range (
float
, optional, defaults to 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 - layer_norm_eps (
float
, optional, defaults to 1e-12) — layer normalization 层使用的 epsilon 值。 - l_layers (
int
, optional, defaults to 9) — Transformer 语言编码器中的隐藏层数。 - x_layers (
int
, optional, defaults to 5) — Transformer 跨模态编码器中的隐藏层数。 - r_layers (
int
, optional, defaults to 5) — Transformer 视觉编码器中的隐藏层数。 - visual_feat_dim (
int
, optional, defaults to 2048) — 这代表了用作模型输入的池化对象特征的最后一个维度,表示每个对象特征本身的大小。 - visual_pos_dim (
int
, optional, defaults to 4) — 这代表了混合到视觉特征中的空间特征的数量。默认设置为 4,因为最常见的情况是代表边界框的位置。即,(x,y,宽度,高度) - visual_loss_normalizer (
float
, optional, defaults to 6.67) — 这表示在预训练期间,如果决定使用多个基于视觉的损失目标进行训练,则每个视觉损失乘以的缩放因子。 - task_matched (
bool
, optional, defaults toTrue
) — 此任务用于句子-图像匹配。如果句子正确描述了图像,则标签为 1。如果句子没有正确描述图像,则标签为 0。 - task_mask_lm (
bool
, optional, defaults toTrue
) — 是否将掩码语言建模(如 BERT 等预训练模型中使用)添加到损失目标中。 - task_obj_predict (
bool
, optional, defaults toTrue
) — 是否将对象预测、属性预测和特征回归添加到损失目标中。 - task_qa (
bool
, optional, defaults toTrue
) — 是否将问答损失添加到目标函数中。 - visual_obj_loss (
bool
, optional, defaults toTrue
) — 是否计算对象预测损失目标函数。 - visual_attr_loss (
bool
, optional, defaults toTrue
) — 是否计算属性预测损失目标函数。 - visual_feat_loss (
bool
, optional, defaults toTrue
) — 是否计算特征回归损失目标函数。
这是用于存储 LxmertModel 或 TFLxmertModel 配置的配置类。它用于根据指定的参数实例化 LXMERT 模型,定义模型架构。使用默认值实例化配置将产生与 Lxmert unc-nlp/lxmert-base-uncased 架构类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。有关更多信息,请阅读 PretrainedConfig 中的文档。
LxmertTokenizer
class transformers.LxmertTokenizer
< source >( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None clean_up_tokenization_spaces = True **kwargs )
参数
- vocab_file (
str
) — 包含词汇表的文件。 - do_lower_case (
bool
, optional, defaults toTrue
) — 是否在分词时将输入转换为小写。 - do_basic_tokenize (
bool
, 可选, 默认为True
) — 是否在 WordPiece 分词之前执行基础分词。 - never_split (
Iterable
, 可选) — 在分词期间永远不会被分割的 token 集合。仅在do_basic_tokenize=True
时有效 - unk_token (
str
, 可选, 默认为"[UNK]"
) — 未知 token。词汇表中没有的 token 无法转换为 ID,而是设置为此 token。 - sep_token (
str
, 可选, 默认为"[SEP]"
) — 分隔符 token,用于从多个序列构建一个序列时,例如,用于序列分类的两个序列,或用于问答的文本和问题。它也用作使用特殊 token 构建的序列的最后一个 token。 - pad_token (
str
, 可选, 默认为"[PAD]"
) — 用于填充的 token,例如,当批量处理不同长度的序列时。 - cls_token (
str
, 可选, 默认为"[CLS]"
) — 分类器 token,用于进行序列分类(对整个序列而不是每个 token 进行分类)。当使用特殊 token 构建序列时,它是序列的第一个 token。 - mask_token (
str
, 可选, 默认为"[MASK]"
) — 用于掩码值的 token。这是使用掩码语言模型训练此模型时使用的 token。这是模型将尝试预测的 token。 - tokenize_chinese_chars (
bool
, 可选, 默认为True
) — 是否对中文字符进行分词。对于日语,这可能应该被停用(参见此 issue)。
- strip_accents (
bool
, 可选) — 是否去除所有重音符号。如果未指定此选项,则将由lowercase
的值决定(与原始 Lxmert 中一样)。 - clean_up_tokenization_spaces (
bool
, 可选, 默认为True
) — 是否在解码后清理空格,清理包括删除潜在的伪像,如多余的空格。
构建 Lxmert 分词器。基于 WordPiece。
此分词器继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) → List[int]
通过连接并添加特殊 token,从序列或序列对构建模型输入,用于序列分类任务。Lxmert 序列具有以下格式
- 单序列:
[CLS] X [SEP]
- 序列对:
[CLS] A [SEP] B [SEP]
将 token 序列(字符串)转换为单个字符串。
create_token_type_ids_from_sequences
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) → List[int]
从传递的两个序列创建一个掩码,用于序列对分类任务。Lxmert 序列
如果 token_ids_1
为 None
,则此方法仅返回掩码的第一部分(0)。
get_special_tokens_mask
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None already_has_special_tokens: bool = False ) → List[int]
从没有添加特殊 token 的 token 列表中检索序列 ID。当使用分词器的 prepare_for_model
方法添加特殊 token 时,将调用此方法。
LxmertTokenizerFast
class transformers.LxmertTokenizerFast
< source >( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )
参数
- vocab_file (
str
) — 包含词汇表的文件。 - do_lower_case (
bool
, 可选, 默认为True
) — 是否在分词时将输入转换为小写。 - unk_token (
str
, 可选, 默认为"[UNK]"
) — 未知 token。词汇表中没有的 token 无法转换为 ID,而是设置为此 token。 - sep_token (
str
, optional, 默认为"[SEP]"
) — 分隔符 token,用于从多个序列构建一个序列时,例如,用于序列分类的两个序列,或者用于问答的文本和问题。它也用作使用特殊 token 构建的序列的最后一个 token。 - pad_token (
str
, optional, 默认为"[PAD]"
) — 用于填充的 token,例如在对不同长度的序列进行批处理时使用。 - cls_token (
str
, optional, 默认为"[CLS]"
) — 分类器 token,用于进行序列分类(对整个序列而不是每个 token 进行分类)。当使用特殊 token 构建序列时,它是序列的第一个 token。 - mask_token (
str
, optional, 默认为"[MASK]"
) — 用于掩码值的 token。这是使用掩码语言建模训练此模型时使用的 token。这是模型将尝试预测的 token。 - clean_text (
bool
, optional, 默认为True
) — 是否在 token 化之前清理文本,方法是删除任何控制字符并将所有空格替换为经典空格。 - tokenize_chinese_chars (
bool
, optional, 默认为True
) — 是否 token 化中文字符。对于日语,可能应该停用此功能(请参阅 此问题)。 - strip_accents (
bool
, optional) — 是否去除所有重音符号。如果未指定此选项,则将由lowercase
的值确定(与原始 Lxmert 中一样)。 - wordpieces_prefix (
str
, optional, 默认为"##"
) — 子词的前缀。
构建一个“快速” Lxmert tokenizer(由 HuggingFace 的 tokenizers 库支持)。基于 WordPiece。
此 tokenizer 继承自 PreTrainedTokenizerFast,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< source >( token_ids_0 token_ids_1 = None ) → List[int]
参数
- token_ids_0 (
List[int]
) — 将添加特殊 token 的 ID 列表。 - token_ids_1 (
List[int]
, optional) — 序列对的可选的第二个 ID 列表。
返回
List[int]
包含适当特殊 token 的 输入 ID 列表。
通过连接并添加特殊 token,从序列或序列对构建模型输入,用于序列分类任务。Lxmert 序列具有以下格式
- 单序列:
[CLS] X [SEP]
- 序列对:
[CLS] A [SEP] B [SEP]
create_token_type_ids_from_sequences
< source >( token_ids_0: typing.List[int] token_ids_1: typing.Optional[typing.List[int]] = None ) → List[int]
从传递的两个序列创建一个掩码,用于序列对分类任务。Lxmert 序列
如果 token_ids_1
为 None
,则此方法仅返回掩码的第一部分(0)。
Lxmert 特定的输出
class transformers.models.lxmert.modeling_lxmert.LxmertModelOutput
< source >( language_output: typing.Optional[torch.FloatTensor] = None vision_output: typing.Optional[torch.FloatTensor] = None pooled_output: typing.Optional[torch.FloatTensor] = None language_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None language_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None cross_encoder_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None )
参数
- language_output (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
) — 语言编码器最后一层输出的隐藏状态序列。 - vision_output (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
) — 视觉编码器最后一层输出的隐藏状态序列。 - pooled_output (形状为
(batch_size, hidden_size)
的torch.FloatTensor
) — 序列的第一个 token(分类,CLS,token)的最后一层隐藏状态,通过线性层和 Tanh 激活函数进一步处理。线性层 - language_hidden_states (
tuple(torch.FloatTensor)
, optional, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(输入特征一个,每个跨模态层输出一个)。 - vision_hidden_states (
tuple(torch.FloatTensor)
, optional, 当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) — 形状为(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元组(输入特征一个,每个跨模态层输出一个)。 - language_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每层一个)。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每层一个)。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组(每层一个)。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
Lxmert 的输出,其中包含语言、视觉和跨模态编码器的最后隐藏状态、池化输出和注意力概率。(注意:Lxmert 中的视觉编码器被称为“关系”编码器”)
class transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput
< source >( loss: typing.Optional[torch.FloatTensor] = None prediction_logits: typing.Optional[torch.FloatTensor] = None cross_relationship_score: typing.Optional[torch.FloatTensor] = None question_answering_score: typing.Optional[torch.FloatTensor] = None language_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None language_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None cross_encoder_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None )
参数
- loss (optional, 当提供
labels
时返回,形状为(1,)
的torch.FloatTensor
) — 总损失,是掩码语言建模损失和下一序列预测(分类)损失的总和。 - prediction_logits (形状为
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 语言建模头的预测分数(SoftMax 之前每个词汇 token 的分数)。 - cross_relationship_score (
torch.FloatTensor
,形状为(batch_size, 2)
) — 文本匹配目标(分类)头的预测分数(SoftMax 之前的 True/False 延续的分数)。 - question_answering_score (
torch.FloatTensor
,形状为(batch_size, n_qa_answers)
) — 问题回答目标(分类)的预测分数。 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(每个输入特征一个 + 每个跨模态层的输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(每个输入特征一个 + 每个跨模态层的输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
Output type of LxmertForPreTraining.
class transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput
< source >( loss: typing.Optional[torch.FloatTensor] = None question_answering_score: typing.Optional[torch.FloatTensor] = None language_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_hidden_states: typing.Optional[typing.Tuple[torch.FloatTensor]] = None language_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None vision_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None cross_encoder_attentions: typing.Optional[typing.Tuple[torch.FloatTensor]] = None )
参数
- loss (可选, 当提供
labels
时返回,torch.FloatTensor
,形状为(1,)
) — 总损失,为掩码语言建模损失和下一个序列预测(分类)损失之和。k. - question_answering_score (
torch.FloatTensor
,形状为(batch_size, n_qa_answers)
, 可选) — 问题回答目标(分类)的预测分数。 - language_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(每个输入特征一个 + 每个跨模态层的输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(每个输入特征一个 + 每个跨模态层的输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
Output type of LxmertForQuestionAnswering.
class transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput
< source >( language_output: tf.Tensor | None = None vision_output: tf.Tensor | None = None pooled_output: tf.Tensor | None = None language_hidden_states: Tuple[tf.Tensor] | None = None vision_hidden_states: Tuple[tf.Tensor] | None = None language_attentions: Tuple[tf.Tensor] | None = None vision_attentions: Tuple[tf.Tensor] | None = None cross_encoder_attentions: Tuple[tf.Tensor] | None = None )
参数
- language_output (形状为
(batch_size, sequence_length, hidden_size)
的tf.Tensor
) — 语言编码器最后一层输出的隐藏状态序列。 - vision_output (形状为
(batch_size, sequence_length, hidden_size)
的tf.Tensor
) — 视觉编码器最后一层输出的隐藏状态序列。 - pooled_output (形状为
(batch_size, hidden_size)
的tf.Tensor
) — 序列第一个标记(分类,CLS,标记)的最后一层隐藏状态,通过线性层和 Tanh 激活函数进一步处理。线性层 - language_hidden_states (
tuple(tf.Tensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(每个输入特征一个 + 每个跨模态层的输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(tf.Tensor)
, 可选, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(每个输入特征一个 + 每个跨模态层的输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
, 可选, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
Lxmert 的输出,其中包含语言、视觉和跨模态编码器的最后隐藏状态、池化输出和注意力概率。(注意:Lxmert 中的视觉编码器被称为“关系”编码器”)
class transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput
< source >( loss: tf.Tensor | None = None prediction_logits: tf.Tensor | None = None cross_relationship_score: tf.Tensor | None = None question_answering_score: tf.Tensor | None = None language_hidden_states: Tuple[tf.Tensor] | None = None vision_hidden_states: Tuple[tf.Tensor] | None = None language_attentions: Tuple[tf.Tensor] | None = None vision_attentions: Tuple[tf.Tensor] | None = None cross_encoder_attentions: Tuple[tf.Tensor] | None = None )
参数
- loss (可选,当提供
labels
时返回,tf.Tensor
,形状为(1,)
) — 总损失,为掩码语言建模损失和下一个序列预测(分类)损失之和。 - prediction_logits (
tf.Tensor
,形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测得分(SoftMax 之前的每个词汇标记的分数)。 - cross_relationship_score (
tf.Tensor
,形状为(batch_size, 2)
) — 文本匹配目标(分类)头的预测得分(SoftMax 之前 True/False 延续的分数)。 - question_answering_score (
tf.Tensor
,形状为(batch_size, n_qa_answers)
) — 问题回答目标(分类)的预测得分。 - language_hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
的元组(每个输入特征一个 + 每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(tf.Tensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —tf.Tensor
的元组(每个输入特征一个 + 每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
Output type of LxmertForPreTraining.
LxmertModel
class transformers.LxmertModel
< source >( config )
参数
- config (LxmertConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法来加载模型权重。
裸 Lxmert 模型 Transformer,输出原始的隐藏状态,顶部没有任何特定的 head。
LXMERT 模型由 Hao Tan 和 Mohit Bansal 在 LXMERT: Learning Cross-Modality Encoder Representations from Transformers 中提出。它是一个视觉和语言 Transformer 模型,在各种多模态数据集上进行了预训练,这些数据集包括 GQA、VQAv2.0、MSCOCO captions 和 Visual genome,使用掩码语言建模、感兴趣区域特征回归、问题回答属性预测的交叉熵损失和对象标签预测的组合。
此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝 head 等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解与通用用法和行为相关的所有事项。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None visual_feats: typing.Optional[torch.FloatTensor] = None visual_pos: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None visual_attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.lxmert.modeling_lxmert.LxmertModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
,形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。索引可以使用 AutoTokenizer 获得。 有关详细信息,请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- visual_feats (
torch.FloatTensor
,形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示视觉特征。它们是使用 faster-RCNN 模型从边界框中 ROI 池化的对象特征。)这些目前未由 transformers 库提供。
- visual_pos (
torch.FloatTensor
,形状为(batch_size, num_visual_features, visual_pos_dim)
) — 此输入表示与其相对(通过索引)视觉特征相对应的空间特征。 预训练的 LXMERT 模型期望这些空间特征是在 0 到 1 范围内的归一化边界框。这些目前未由 transformers 库提供。
- attention_mask (
torch.FloatTensor
,形状为(batch_size, sequence_length)
, 可选) — 用于避免在 padding 标记索引上执行 attention 的掩码。掩码值在[0, 1]
中选择:- 1 表示未被掩码的标记,
- 0 表示被掩码的标记。
- visual_attention_mask (
torch.FloatTensor
,形状为(batch_size, sequence_length)
, 可选) — 用于避免在 padding 标记索引上执行 attention 的掩码。掩码值在[0, 1]
中选择:- 1 表示未被掩码的标记,
- 0 表示被掩码的标记。
- token_type_ids (
torch.LongTensor
,形状为(batch_size, sequence_length)
, 可选) — 分段标记索引,用于指示输入的第一部分和第二部分。索引在[0, 1]
中选择:- 0 对应于 sentence A 标记,
- 1 对应于 sentence B 标记。
- inputs_embeds (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
, 可选) — (可选)您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望更好地控制如何将input_ids
索引转换为关联的向量,而不是模型的内部嵌入查找矩阵,这将非常有用。 - output_attentions (
bool
, 可选) — 是否返回所有 attention 层的 attentions 张量。 有关更多详细信息,请参见返回的张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参见返回的张量下的hidden_states
。 - return_dict (
bool
, optional) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.models.lxmert.modeling_lxmert.LxmertModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.lxmert.modeling_lxmert.LxmertModelOutput 或一个 torch.FloatTensor
元组 (如果传递了 return_dict=False
或当 config.return_dict=False
时),包含各种元素,具体取决于配置 (LxmertConfig) 和输入。
- language_output (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
) — 语言编码器最后一层输出的隐藏状态序列。 - vision_output (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
) — 视觉编码器最后一层输出的隐藏状态序列。 - pooled_output (形状为
(batch_size, hidden_size)
的torch.FloatTensor
) — 序列的第一个 token (分类,CLS token) 的最后一层隐藏状态,通过线性层和 Tanh 激活函数进一步处理。线性层 - language_hidden_states (
tuple(torch.FloatTensor)
, optional, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组 (每个输入特征一个,每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, optional, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组 (每个输入特征一个,每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的权重,用于计算自注意力头中的加权平均值。
LxmertModel forward 方法,覆盖了 __call__
特殊方法。
虽然 forward 传递的配方需要在该函数中定义,但应在之后调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, LxmertModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> model = LxmertModel.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
LxmertForPreTraining
class transformers.LxmertForPreTraining
< source >( config )
参数
- config (LxmertConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法以加载模型权重。
带有指定预训练头的 Lxmert 模型。
LXMERT 模型由 Hao Tan 和 Mohit Bansal 在 LXMERT: Learning Cross-Modality Encoder Representations from Transformers 中提出。它是一个视觉和语言 Transformer 模型,在各种多模态数据集上进行了预训练,这些数据集包括 GQA、VQAv2.0、MSCOCO captions 和 Visual genome,使用掩码语言建模、感兴趣区域特征回归、问题回答属性预测的交叉熵损失和对象标签预测的组合。
此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝 head 等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解与通用用法和行为相关的所有事项。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None visual_feats: typing.Optional[torch.FloatTensor] = None visual_pos: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None visual_attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None obj_labels: typing.Optional[typing.Dict[str, typing.Tuple[torch.FloatTensor, torch.FloatTensor]]] = None matched_label: typing.Optional[torch.LongTensor] = None ans: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **kwargs ) → transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
) — 输入序列 token 在词汇表中的索引。可以使用 AutoTokenizer 获取索引。 有关详细信息,请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- visual_feats (形状为
(batch_size, num_visual_features, visual_feat_dim)
的torch.FloatTensor
) — 此输入表示视觉特征。 它们是使用 faster-RCNN 模型从边界框中 ROI 池化的对象特征)这些目前不由 transformers 库提供。
- visual_pos (形状为
(batch_size, num_visual_features, visual_pos_dim)
的torch.FloatTensor
) — 此输入表示与其相对 (通过索引) 视觉特征相对应的空间特征。 预训练的 LXMERT 模型期望这些空间特征是在 0 到 1 范围内的标准化边界框。这些目前不由 transformers 库提供。
- attention_mask (形状为
(batch_size, sequence_length)
的torch.FloatTensor
, optional) — 用于避免在 padding token 索引上执行注意力的 Mask。 Mask 值在[0, 1]
中选择:- 1 表示 未被 mask 的 token,
- 0 表示 被 mask 的 token。
- visual_attention_mask (形状为
(batch_size, sequence_length)
的torch.FloatTensor
, optional) — 用于避免在 padding token 索引上执行注意力的 Mask。 Mask 值在[0, 1]
中选择:- 1 表示 未被 mask 的 token,
- 0 表示 被 mask 的 token。
- token_type_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
, optional) — 分段 token 索引,用于指示输入的第一部分和第二部分。 索引在[0, 1]
中选择:- 0 对应于 句子 A token,
- 1 对应于 句子 B token。
- inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。 如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将input_ids
索引转换为关联的向量,这将非常有用。 - output_attentions (
bool
, optional) — 是否返回所有注意力层的注意力 tensors。 有关更多详细信息,请参见返回的 tensors 下的attentions
。 - output_hidden_states (
bool
, optional) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参见返回的 tensors 下的hidden_states
。 - return_dict (
bool
, optional) — 是否返回 ModelOutput 而不是普通元组。 - labels (形状为
(batch_size, sequence_length)
的torch.LongTensor
, optional) — 用于计算 masked language modeling 损失的标签。 索引应在[-100, 0, ..., config.vocab_size]
中 (参见input_ids
docstring) 索引设置为-100
的 Token 将被忽略 (masked),损失仅针对标签在[0, ..., config.vocab_size]
中的 token 计算 - obj_labels (
Dict[Str -- Tuple[Torch.FloatTensor, Torch.FloatTensor]]
, optional): 每个键都以每个视觉损失之一命名,并且元组的每个元素的形状分别为(batch_size, num_features)
和(batch_size, num_features, visual_feature_dim)
,分别对应于标签 id 和标签分数 - matched_label (形状为
(batch_size,)
的torch.LongTensor
, optional) — 用于计算文本输入是否与图像匹配 (分类) 损失的标签。 输入应为序列对 (参见input_ids
docstring) 索引应在[0, 1]
中:- 0 表示句子与图像不匹配,
- 1 表示句子与图像匹配。
- ans (形状为
(batch_size)
的Torch.Tensor
, optional) — 正确答案的 one-hot 表示 optional
返回
transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.lxmert.modeling_lxmert.LxmertForPreTrainingOutput 或一个 torch.FloatTensor
元组 (如果传递了 return_dict=False
或当 config.return_dict=False
时),包含各种元素,具体取决于配置 (LxmertConfig) 和输入。
- loss (optional, 当提供
labels
时返回, 形状为(1,)
的torch.FloatTensor
) — 总损失,为 masked language modeling 损失和下一个序列预测 (分类) 损失的总和。 - prediction_logits (形状为
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 语言建模头的预测分数 (SoftMax 之前每个词汇表 token 的分数)。 - cross_relationship_score (形状为
(batch_size, 2)
的torch.FloatTensor
) — 文本匹配目标 (分类) 头的预测分数 (SoftMax 之前 True/False 延续的分数)。 - question_answering_score (形状为
(batch_size, n_qa_answers)
的torch.FloatTensor
) — 问题解答目标 (分类) 的预测分数。 - language_hidden_states (
tuple(torch.FloatTensor)
, optional, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组 (每个输入特征一个,每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, optional, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组 (每个输入特征一个,每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的权重,用于计算自注意力头中的加权平均值。
LxmertForPreTraining forward 方法,覆盖了 __call__
特殊方法。
虽然 forward 传递的配方需要在该函数中定义,但应在之后调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
LxmertForQuestionAnswering
class transformers.LxmertForQuestionAnswering
< source >( config )
参数
- config (LxmertConfig) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法以加载模型权重。
Lxmert 模型,顶部带有一个视觉问答头,用于下游 QA 任务
LXMERT 模型由 Hao Tan 和 Mohit Bansal 在 LXMERT: Learning Cross-Modality Encoder Representations from Transformers 中提出。它是一个视觉和语言 Transformer 模型,在各种多模态数据集上进行了预训练,这些数据集包括 GQA、VQAv2.0、MSCOCO captions 和 Visual genome,使用掩码语言建模、感兴趣区域特征回归、问题回答属性预测的交叉熵损失和对象标签预测的组合。
此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝 head 等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解与通用用法和行为相关的所有事项。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None visual_feats: typing.Optional[torch.FloatTensor] = None visual_pos: typing.Optional[torch.FloatTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None visual_attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
,形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。可以使用 AutoTokenizer 获取索引。 有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- visual_feats (
torch.FloatTensor
,形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示视觉特征。 它们是使用 Faster-RCNN 模型从边界框中 ROI 池化的对象特征)这些目前未由 transformers 库提供。
- visual_pos (
torch.FloatTensor
,形状为(batch_size, num_visual_features, visual_pos_dim)
) — 此输入表示与其相对(通过索引)视觉特征相对应的空间特征。 预训练的 LXMERT 模型期望这些空间特征是在 0 到范围内的归一化边界框。 这些目前未由 transformers 库提供。
- attention_mask (
torch.FloatTensor
,形状为(batch_size, sequence_length)
, 可选) — 掩码,用于避免在填充标记索引上执行注意力机制。 掩码值在[0, 1]
中选择:- 1 表示 未被掩码 的标记,
- 0 表示 被掩码 的标记。
- visual_attention_mask (
torch.FloatTensor
,形状为(batch_size, sequence_length)
, 可选) — 掩码,用于避免在填充标记索引上执行注意力机制。 掩码值在[0, 1]
中选择:- 1 表示 未被掩码 的标记,
- 0 表示 被掩码 的标记。
- token_type_ids (
torch.LongTensor
,形状为(batch_size, sequence_length)
, 可选) — 分段标记索引,用于指示输入的第一部分和第二部分。 索引在[0, 1]
中选择:- 0 对应于 句子 A 标记,
- 1 对应于 句子 B 标记。
- inputs_embeds (
torch.FloatTensor
,形状为(batch_size, sequence_length, hidden_size)
, 可选) — (可选)您可以选择直接传递嵌入表示,而不是传递input_ids
。 如果您想要比模型的内部嵌入查找矩阵更灵活地控制如何将input_ids
索引转换为关联向量,这将非常有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。 有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。 - labels (
Torch.Tensor
,形状为(batch_size)
, 可选) — 正确答案的 one-hot 表示
返回
transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.lxmert.modeling_lxmert.LxmertForQuestionAnsweringOutput 或 torch.FloatTensor
元组(如果传递 return_dict=False
或当 config.return_dict=False
时),包含各种元素,具体取决于配置 (LxmertConfig) 和输入。
- loss (可选, 当提供
labels
时返回,torch.FloatTensor
,形状为(1,)
) — 总损失,作为掩码语言建模损失和下一个序列预测(分类)损失的总和。 - question_answering_score (
torch.FloatTensor
,形状为(batch_size, n_qa_answers)
, 可选) — 问题回答目标(分类)的预测分数。 - language_hidden_states (
tuple(torch.FloatTensor)
, optional, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组 (每个输入特征一个,每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(torch.FloatTensor)
, optional, 当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组 (每个输入特征一个,每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的权重,用于计算自注意力头中的加权平均值。 - vision_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的权重,用于计算自注意力头中的加权平均值。 - cross_encoder_attentions (
tuple(torch.FloatTensor)
, optional, 当传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组 (每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之后的权重,用于计算自注意力头中的加权平均值。
LxmertForQuestionAnswering forward 方法覆盖了 __call__
特殊方法。
虽然 forward 传递的配方需要在该函数中定义,但应在之后调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, LxmertForQuestionAnswering
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> model = LxmertForQuestionAnswering.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"
>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()
>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])
>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss
TFLxmertModel
class transformers.TFLxmertModel
< source >( config *inputs **kwargs )
参数
- config (LxmertConfig) — 模型配置类,包含模型的所有参数。 使用配置文件初始化不会加载与模型关联的权重,只会加载配置。 查看 from_pretrained() 方法以加载模型权重。
裸 Lxmert 模型 Transformer,输出原始的隐藏状态,顶部没有任何特定的 head。
LXMERT 模型在 LXMERT: Learning Cross-Modality Encoder Representations from Transformers 中由 Hao Tan 和 Mohit Bansal 提出。 这是一个视觉和语言 Transformer 模型,在各种多模态数据集上进行了预训练,包括 GQA、VQAv2.0、MCSCOCO 标题和 Visual genome,使用掩码语言建模、感兴趣区域特征回归、问题回答属性预测的交叉熵损失和对象标签预测的组合。
此模型也是 keras.Model 子类。 将其用作常规 TF 2.0 Keras 模型,并参考 TF 2.0 文档以了解与常规用法和行为相关的所有事项。
transformers
中的 TensorFlow 模型和层接受两种输入格式
- 将所有输入作为关键字参数(如 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。 由于这种支持,当使用诸如 model.fit()
之类的方法时,对于您来说,事情应该“正常工作” - 只需以 model.fit()
支持的任何格式传递您的输入和标签即可! 但是,如果您想在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建自己的层或模型时,可以使用三种可能性来收集第一个位置参数中的所有输入张量
- 仅使用
input_ids
且不包含其他内容的单个张量:model(input_ids)
- 长度可变的列表,其中包含一个或多个输入张量,顺序与文档字符串中给出的顺序相同:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 字典,其中包含一个或多个输入张量,与文档字符串中给出的输入名称关联:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,您无需担心任何这些,因为您可以像对待任何其他 Python 函数一样传递输入!
call
< source >( input_ids: TFModelInputType | None = None visual_feats: tf.Tensor | None = None visual_pos: tf.Tensor | None = None attention_mask: np.ndarray | tf.Tensor | None = None visual_attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput 或 tuple(tf.Tensor)
参数
- input_ids (
np.ndarray
或tf.Tensor
,形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。可以使用 AutoTokenizer 获取索引。 有关详细信息,请参阅 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- visual_feats (
tf.Tensor
,形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示视觉特征。 它们是使用 Faster-RCNN 模型从边界框中 ROI 池化的对象特征)这些目前未由 transformers 库提供。
- visual_pos (
tf.Tensor
,形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示与其相对(通过索引)视觉特征相对应的空间特征。 预训练的 LXMERT 模型期望这些空间特征是在 0 到范围内的归一化边界框。 这些目前未由 transformers 库提供。
- attention_mask (
tf.Tensor
,形状为(batch_size, sequence_length)
, 可选) — 掩码,用于避免在填充标记索引上执行注意力机制。 掩码值在[0, 1]
中选择:- 1 表示 未被掩码 的标记,
- 0 表示 被掩码 的标记。
- visual_attention_mask (
tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — 用于避免对 padding 标记索引执行 attention 的 Mask。Mask 值在[0, 1]
中选择:- 1 表示未被 mask 的标记,
- 0 表示已被 mask 的标记。
- token_type_ids (
tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — Segment token indices to indicate first and second portions of the inputs. Indices are selected in[0, 1]
:- 0 对应 句子 A token,
- 1 对应 句子 B token。
- inputs_embeds (
tf.Tensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 可以选择直接传递嵌入表示,而不是传递input_ids
。 如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将input_ids
索引转换为关联向量,这将非常有用。 - output_attentions (
bool
,可选) — 是否返回所有 attention 层的 attentions 张量。 有关更多详细信息,请参见返回张量下的attentions
。 此参数只能在即时模式下使用,在图模式下将使用配置中的值。 - output_hidden_states (
bool
,可选) — 是否返回所有层的 hidden states。 有关更多详细信息,请参见返回张量下的hidden_states
。 此参数只能在即时模式下使用,在图模式下将使用配置中的值。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是普通元组。 此参数可以在即时模式下使用,在图模式下该值将始终设置为 True。 - training (
bool
,可选,默认为False
) — 是否在训练模式下使用模型(dropout 模块等某些模块在训练和评估之间具有不同的行为)。
返回
transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput 或 tuple(tf.Tensor)
一个 transformers.models.lxmert.modeling_tf_lxmert.TFLxmertModelOutput 或一个 tf.Tensor
元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),其中包含各种元素,具体取决于配置 (LxmertConfig) 和输入。
- language_output (
tf.Tensor
,形状为(batch_size, sequence_length, hidden_size)
) — 语言编码器最后一层输出的 hidden states 序列。 - vision_output (
tf.Tensor
,形状为(batch_size, sequence_length, hidden_size)
) — 视觉编码器最后一层输出的 hidden states 序列。 - pooled_output (
tf.Tensor
,形状为(batch_size, hidden_size)
) — 序列的第一个标记(classification,CLS,token)的最后一层 hidden state,通过 Linear 层和 Tanh 激活函数进一步处理。 Linear - language_hidden_states (
tuple(tf.Tensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(输入特征一个,每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(tf.Tensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(输入特征一个,每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(tf.Tensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。 Attention softmax 之后的 attentions 权重,用于计算 self-attention heads 中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。 Attention softmax 之后的 attentions 权重,用于计算 self-attention heads 中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。 Attention softmax 之后的 attentions 权重,用于计算 self-attention heads 中的加权平均值。
TFLxmertModel
forward 方法,覆盖了 __call__
特殊方法。
虽然 forward 传递的配方需要在该函数中定义,但应在之后调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TFLxmertModel
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> model = TFLxmertModel.from_pretrained("unc-nlp/lxmert-base-uncased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)
>>> last_hidden_states = outputs.last_hidden_state
TFLxmertForPreTraining
class transformers.TFLxmertForPreTraining
< source >( config *inputs **kwargs )
参数
- config (LxmertConfig) — 带有模型所有参数的模型配置类。 使用配置文件初始化不会加载与模型关联的权重,仅加载配置。 查看 from_pretrained() 方法以加载模型权重。
带有置于顶部的 language modeling
头的 Lxmert 模型。
LXMERT 模型在 LXMERT: Learning Cross-Modality Encoder Representations from Transformers 中由 Hao Tan 和 Mohit Bansal 提出。 这是一个视觉和语言 Transformer 模型,在各种多模态数据集上进行了预训练,包括 GQA、VQAv2.0、MCSCOCO 标题和 Visual genome,使用掩码语言建模、感兴趣区域特征回归、问题回答属性预测的交叉熵损失和对象标签预测的组合。
此模型也是 keras.Model 子类。 将其用作常规 TF 2.0 Keras 模型,并参考 TF 2.0 文档以了解与常规用法和行为相关的所有事项。
transformers
中的 TensorFlow 模型和层接受两种输入格式
- 将所有输入作为关键字参数(如 PyTorch 模型),或
- 将所有输入作为列表、元组或字典放在第一个位置参数中。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。 由于这种支持,当使用诸如 model.fit()
之类的方法时,对于您来说,事情应该“正常工作” - 只需以 model.fit()
支持的任何格式传递您的输入和标签即可! 但是,如果您想在 Keras 方法(如 fit()
和 predict()
)之外使用第二种格式,例如在使用 Keras Functional
API 创建自己的层或模型时,可以使用三种可能性来收集第一个位置参数中的所有输入张量
- 仅使用
input_ids
且不包含其他内容的单个张量:model(input_ids)
- 长度可变的列表,其中包含一个或多个输入张量,顺序与文档字符串中给出的顺序相同:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 字典,其中包含一个或多个输入张量,与文档字符串中给出的输入名称关联:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,您无需担心任何这些,因为您可以像对待任何其他 Python 函数一样传递输入!
call
< source >( input_ids: TFModelInputType | None = None visual_feats: tf.Tensor | None = None visual_pos: tf.Tensor | None = None attention_mask: tf.Tensor | None = None visual_attention_mask: tf.Tensor | None = None token_type_ids: tf.Tensor | None = None inputs_embeds: tf.Tensor | None = None masked_lm_labels: tf.Tensor | None = None obj_labels: Dict[str, Tuple[tf.Tensor, tf.Tensor]] | None = None matched_label: tf.Tensor | None = None ans: tf.Tensor | None = None output_attentions: bool | None = None output_hidden_states: bool | None = None return_dict: bool | None = None training: bool = False ) → transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput 或 tuple(tf.Tensor)
参数
- input_ids (
np.ndarray
或tf.Tensor
,形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。可以使用 AutoTokenizer 获取索引。 有关详细信息,请参见 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- visual_feats (
tf.Tensor
,形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示视觉特征。 它们是使用 faster-RCNN 模型从边界框中 ROI 池化的对象特征)这些目前不是由 transformers 库提供的。
- visual_pos (
tf.Tensor
,形状为(batch_size, num_visual_features, visual_feat_dim)
) — 此输入表示与其相对(通过索引)视觉特征相对应的空间特征。 预训练的 LXMERT 模型期望这些空间特征是在 0 到 1 范围内标准化的边界框。这些目前不是由 transformers 库提供的。
- attention_mask (
tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — 用于避免对 padding 标记索引执行 attention 的 Mask。Mask 值在[0, 1]
中选择:- 1 表示未被 mask 的标记,
- 0 表示已被 mask 的标记。
- visual_attention_mask (
tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — 用于避免对 padding 标记索引执行 attention 的 Mask。Mask 值在[0, 1]
中选择:- 1 表示未被 mask 的标记,
- 0 表示已被 mask 的标记。
- token_type_ids (
tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — Segment token indices to indicate first and second portions of the inputs. Indices are selected in[0, 1]
:- 0 对应 句子 A token,
- 1 对应 句子 B token。
- inputs_embeds (
tf.Tensor
,形状为(batch_size, sequence_length, hidden_size)
,可选) — 可以选择直接传递嵌入表示,而不是传递input_ids
。 如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将input_ids
索引转换为关联向量,这将非常有用。 - output_attentions (
bool
,可选) — 是否返回所有 attention 层的 attentions 张量。 有关更多详细信息,请参见返回张量下的attentions
。 此参数只能在即时模式下使用,在图模式下将使用配置中的值。 - output_hidden_states (
bool
,可选) — 是否返回所有层的 hidden states。 有关更多详细信息,请参见返回张量下的hidden_states
。 此参数只能在即时模式下使用,在图模式下将使用配置中的值。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是普通元组。 此参数可以在即时模式下使用,在图模式下该值将始终设置为 True。 - training (
bool
,可选,默认为False
) — 是否在训练模式下使用模型(dropout 模块等某些模块在训练和评估之间具有不同的行为)。 - masked_lm_labels (
tf.Tensor
,形状为(batch_size, sequence_length)
,可选) — 用于计算 masked language modeling 损失的标签。 索引应在[-100, 0, ..., config.vocab_size]
中(参见input_ids
文档字符串)索引设置为-100
的标记将被忽略(masked),损失仅针对标签在[0, ..., config.vocab_size]
中的标记计算 - obj_labels (
Dict[Str -- Tuple[tf.Tensor, tf.Tensor]]
, 可选, 默认为None
): 每个键都以每个视觉损失之一命名,并且元组的每个元素的形状分别为(batch_size, num_features)
和(batch_size, num_features, visual_feature_dim)
,分别对应标签 ID 和标签分数 - matched_label (
tf.Tensor
,形状为(batch_size,)
, 可选) — 用于计算文本输入是否与图像匹配(分类)损失的标签。输入应为序列对(参见input_ids
文档字符串)。索引应在[0, 1]
范围内:- 0 表示句子与图像不匹配,
- 1 表示句子与图像匹配。
- ans (
tf.Tensor
,形状为(batch_size)
, 可选, 默认为None
) — 正确答案的 one-hot 表示形式,可选
返回
transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput or tuple(tf.Tensor)
A transformers.models.lxmert.modeling_tf_lxmert.TFLxmertForPreTrainingOutput or a tuple of tf.Tensor
(if return_dict=False
is passed or when config.return_dict=False
) comprising various elements depending on the configuration (LxmertConfig) and inputs.
- loss (可选, 当提供
labels
时返回,tf.Tensor
,形状为(1,)
) — 总损失,作为 masked language modeling 损失和下一个序列预测(分类)损失的总和。 - prediction_logits (
tf.Tensor
,形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前每个词汇 tokens 的分数)。 - cross_relationship_score (
tf.Tensor
,形状为(batch_size, 2)
) — 文本匹配目标(分类)头的预测分数(SoftMax 之前 True/False 延续的分数)。 - question_answering_score (
tf.Tensor
,形状为(batch_size, n_qa_answers)
) — 问题回答目标(分类)的预测分数。 - language_hidden_states (
tuple(tf.Tensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(输入特征一个,每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - vision_hidden_states (
tuple(tf.Tensor)
,可选,当传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —tf.Tensor
的元组(输入特征一个,每个跨模态层输出一个),形状为(batch_size, sequence_length, hidden_size)
。 - language_attentions (
tuple(tf.Tensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。 Attention softmax 之后的 attentions 权重,用于计算 self-attention heads 中的加权平均值。 - vision_attentions (
tuple(tf.Tensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。 Attention softmax 之后的 attentions 权重,用于计算 self-attention heads 中的加权平均值。 - cross_encoder_attentions (
tuple(tf.Tensor)
,可选,当传递output_attentions=True
或当config.output_attentions=True
时返回) —tf.Tensor
的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。 Attention softmax 之后的 attentions 权重,用于计算 self-attention heads 中的加权平均值。
The TFLxmertForPreTraining forward method, overrides the __call__
special method.
虽然 forward 传递的配方需要在该函数中定义,但应在之后调用 Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。