Transformers

( *args **kwargs )

所有模型输出的基类，作为数据类。具有一个 __getitem__ 方法，允许通过整数或切片（像元组一样）或字符串（像字典一样）进行索引，这将忽略 None 属性。否则，其行为类似于常规 Python 字典。

您不能直接解包 ModelOutput。请使用 to_tuple() 方法将其转换为元组。

to_tuple

( )

将自身转换为包含所有非 None 属性/键的元组。

BaseModelOutput

class transformers.modeling_outputs.BaseModelOutput

( last_hidden_state: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

参数

last_hidden_state (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最后一层输出的隐藏状态序列。
hidden_states (tuple(torch.FloatTensor), 可选，当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层输出一个）。

模型在每个层输出的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传递 output_attentions=True 或 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。

模型输出的基类，可能包含隐藏状态和注意力。

BaseModelOutputWithPooling

class transformers.modeling_outputs.BaseModelOutputWithPooling

参数

last_hidden_state (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最后一层输出的隐藏状态序列。
pooler_output (形状为 (batch_size, hidden_size) 的 torch.FloatTensor) — 经过用于辅助预训练任务的层进一步处理后，序列中第一个 token（分类 token）的最后一层隐藏状态。例如，对于 BERT 族模型，这会在经过线性层和 tanh 激活函数处理后返回分类 token。线性层权重在预训练期间根据下一句预测（分类）目标进行训练。
hidden_states (tuple(torch.FloatTensor), 可选，当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层输出一个）。

模型在每个层输出的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传递 output_attentions=True 或 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。

模型输出的基类，也包含最后隐藏状态的池化。

BaseModelOutputWithCrossAttentions

class transformers.modeling_outputs.BaseModelOutputWithCrossAttentions

( last_hidden_state: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

参数

last_hidden_state (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最后一层输出的隐藏状态序列。
hidden_states (tuple(torch.FloatTensor), 可选，当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层输出一个）。

模型在每个层输出的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传递 output_attentions=True 或 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选，当传递 output_attentions=True 且 config.add_cross_attention=True 时返回，或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

解码器交叉注意力层在注意力 softmax 后的注意力权重，用于计算交叉注意力头中的加权平均。

模型输出的基类，可能包含隐藏状态和注意力。

BaseModelOutputWithPoolingAndCrossAttentions

class transformers.modeling_outputs.BaseModelOutputWithPoolingAndCrossAttentions

( last_hidden_state: typing.Optional[torch.FloatTensor] = None pooler_output: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

参数

last_hidden_state (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最后一层输出的隐藏状态序列。
pooler_output (形状为 (batch_size, hidden_size) 的 torch.FloatTensor) — 经过用于辅助预训练任务的层进一步处理后，序列中第一个 token（分类 token）的最后一层隐藏状态。例如，对于 BERT 族模型，这会在经过线性层和 tanh 激活函数处理后返回分类 token。线性层权重在预训练期间根据下一句预测（分类）目标进行训练。
hidden_states (tuple(torch.FloatTensor), 可选，当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层输出一个）。

模型在每个层输出的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传递 output_attentions=True 或 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选，当传递 output_attentions=True 且 config.add_cross_attention=True 时返回，或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

解码器交叉注意力层在注意力 softmax 后的注意力权重，用于计算交叉注意力头中的加权平均。
past_key_values (Cache, 可选，当传递 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 Cache 实例。更多详情请参阅我们的 KV 缓存指南。

包含预先计算的隐藏状态（自注意力块中的键和值，如果 config.is_encoder_decoder=True，则可选地包含交叉注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。

模型输出的基类，也包含最后隐藏状态的池化。

BaseModelOutputWithPast

class transformers.modeling_outputs.BaseModelOutputWithPast

( last_hidden_state: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

参数

last_hidden_state (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最后一层输出的隐藏状态序列。

如果使用 past_key_values，则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后隐藏状态。
past_key_values (Cache, 可选，当传递 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 Cache 实例。更多详情请参阅我们的 KV 缓存指南。

包含预先计算的隐藏状态（自注意力块中的键和值，如果 config.is_encoder_decoder=True，则可选地包含交叉注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
hidden_states (tuple(torch.FloatTensor), 可选，当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层输出一个）。

模型在每个层输出的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传递 output_attentions=True 或 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。

模型输出的基类，也可能包含过去的键/值（以加速顺序解码）。

BaseModelOutputWithPastAndCrossAttentions

class transformers.modeling_outputs.BaseModelOutputWithPastAndCrossAttentions

参数

last_hidden_state (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor) — 模型最后一层输出的隐藏状态序列。

如果使用 past_key_values，则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后隐藏状态。
past_key_values (Cache, 可选，当传递 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 Cache 实例。更多详情请参阅我们的 KV 缓存指南。

包含预先计算的隐藏状态（自注意力块中的键和值，如果 config.is_encoder_decoder=True，则可选地包含交叉注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层的输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 和 config.add_cross_attention=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层在注意力 softmax 后的注意力权重，用于计算交叉注意力头中的加权平均。

模型输出的基类，也可能包含过去的键/值（以加速顺序解码）。

Seq2SeqModelOutput

class transformers.modeling_outputs.Seq2SeqModelOutput

( last_hidden_state: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[transformers.cache_utils.EncoderDecoderCache] = None decoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None decoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_last_hidden_state: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

参数

last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)) — 模型解码器最后一层的隐藏状态序列。

如果使用了 past_key_values，则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。
past_key_values (EncoderDecoderCache, 可选, 当传入 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 EncoderDecoderCache 实例。更多详情请参阅我们的 kv cache 指南。

包含预计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于（参阅 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

解码器在每个层的输出处的隐藏状态，以及可选的初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器在注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层在注意力 softmax 后的注意力权重，用于计算交叉注意力头中的加权平均。
encoder_last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size), 可选) — 模型编码器最后一层的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

编码器在每个层的输出处的隐藏状态，以及可选的初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器在注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。

模型编码器输出的基类，也包含：可加速顺序解码的预计算隐藏状态。

CausalLMOutput

class transformers.modeling_outputs.CausalLMOutput

( loss: typing.Optional[torch.FloatTensor] = None logits: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

参数

loss (torch.FloatTensor，形状为 (1,), 可选, 当提供 labels 时返回) — 语言模型损失（用于下一词预测）。
logits (torch.FloatTensor，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言模型头部的预测分数（SoftMax 之前的每个词汇标记的分数）。
hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层的输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。

因果语言模型（或自回归模型）输出的基类。

CausalLMOutputWithCrossAttentions

class transformers.modeling_outputs.CausalLMOutputWithCrossAttentions

( loss: typing.Optional[torch.FloatTensor] = None logits: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[transformers.cache_utils.Cache] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

参数

loss (torch.FloatTensor，形状为 (1,), 可选, 当提供 labels 时返回) — 语言模型损失（用于下一词预测）。
logits (torch.FloatTensor，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言模型头部的预测分数（SoftMax 之前的每个词汇标记的分数）。
hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层的输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

交叉注意力 softmax 后的交叉注意力权重，用于计算交叉注意力头中的加权平均。
past_key_values (Cache, 可选, 当传入 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 Cache 实例。更多详情请参阅我们的 kv cache 指南。

包含预计算的隐藏状态（注意力块中的键和值），可用于（参阅 past_key_values 输入）加速顺序解码。

因果语言模型（或自回归模型）输出的基类。

CausalLMOutputWithPast

class transformers.modeling_outputs.CausalLMOutputWithPast

参数

loss (torch.FloatTensor，形状为 (1,), 可选, 当提供 labels 时返回) — 语言模型损失（用于下一词预测）。
logits (torch.FloatTensor，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言模型头部的预测分数（SoftMax 之前的每个词汇标记的分数）。
past_key_values (Cache, 可选, 当传入 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 Cache 实例。更多详情请参阅我们的 kv cache 指南。

包含预计算的隐藏状态（自注意力块中的键和值），可用于（参阅 past_key_values 输入）加速顺序解码。
hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层的输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。

因果语言模型（或自回归模型）输出的基类。

MaskedLMOutput

class transformers.modeling_outputs.MaskedLMOutput

参数

loss (torch.FloatTensor，形状为 (1,), 可选, 当提供 labels 时返回) — 掩码语言模型 (MLM) 损失。
logits (torch.FloatTensor，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言模型头部的预测分数（SoftMax 之前的每个词汇标记的分数）。
hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

模型在每个层的输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。

掩码语言模型输出的基类。

Seq2SeqLMOutput

class transformers.modeling_outputs.Seq2SeqLMOutput

( loss: typing.Optional[torch.FloatTensor] = None logits: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[transformers.cache_utils.EncoderDecoderCache] = None decoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None decoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_last_hidden_state: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

参数

loss (torch.FloatTensor，形状为 (1,), 可选, 当提供 labels 时返回) — 语言模型损失。
logits (torch.FloatTensor，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言模型头部的预测分数（SoftMax 之前的每个词汇标记的分数）。
past_key_values (EncoderDecoderCache, 可选, 当传入 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 EncoderDecoderCache 实例。更多详情请参阅我们的 kv cache 指南。

包含预计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于（参阅 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

解码器在每个层的输出处的隐藏状态，以及初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器在注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层在注意力 softmax 后的注意力权重，用于计算交叉注意力头中的加权平均。
encoder_last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size), 可选) — 模型编码器最后一层的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传入 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出），形状为 (batch_size, sequence_length, hidden_size)。

编码器在每个层的输出处的隐藏状态，以及初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选, 当传入 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器在注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均。

序列到序列语言模型输出的基类。

NextSentencePredictorOutput

class transformers.modeling_outputs.NextSentencePredictorOutput

参数

loss (torch.FloatTensor，形状为 (1,), 可选, 当提供 next_sentence_label 时返回) — 下一序列预测（分类）损失。
logits (torch.FloatTensor，形状为(batch_size, 2)) — 下一个序列预测（分类）头的预测分数（SoftMax之前的真/假延续分数）。
hidden_states (tuple(torch.FloatTensor), 可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的输出）的形状为(batch_size, sequence_length, hidden_size)。

模型在每个层输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

在注意力softmax之后的注意力权重，用于计算自注意力头中的加权平均值。

预测两个句子是否连续的模型输出的基类。

SequenceClassifierOutput

class transformers.modeling_outputs.SequenceClassifierOutput

参数

loss (torch.FloatTensor，形状为(1,)，可选，当提供labels时返回) — 分类（如果config.num_labels==1，则为回归）损失。
logits (torch.FloatTensor，形状为(batch_size, config.num_labels)) — 分类（如果config.num_labels==1，则为回归）分数（SoftMax之前）。
hidden_states (tuple(torch.FloatTensor), 可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的输出）的形状为(batch_size, sequence_length, hidden_size)。

模型在每个层输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

在注意力softmax之后的注意力权重，用于计算自注意力头中的加权平均值。

句子分类模型输出的基类。

Seq2SeqSequenceClassifierOutput

class transformers.modeling_outputs.Seq2SeqSequenceClassifierOutput

参数

loss (torch.FloatTensor，形状为(1,)，可选，当提供label时返回) — 分类（如果config.num_labels==1，则为回归）损失。
logits (torch.FloatTensor，形状为(batch_size, config.num_labels)) — 分类（如果config.num_labels==1，则为回归）分数（SoftMax之前）。
past_key_values (EncoderDecoderCache, 可选，当传入use_cache=True或config.use_cache=True时返回) — 这是一个 EncoderDecoderCache 实例。更多详情，请参阅我们的 kv 缓存指南。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于（参见past_key_values输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), 可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的输出）的形状为(batch_size, sequence_length, hidden_size)。

解码器在每个层输出处的隐藏状态，以及初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力softmax之后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力softmax之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层输出的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的输出）的形状为(batch_size, sequence_length, hidden_size)。

编码器在每个层输出处的隐藏状态，以及初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力softmax之后，用于计算自注意力头中的加权平均值。

序列到序列句子分类模型输出的基类。

MultipleChoiceModelOutput

class transformers.modeling_outputs.MultipleChoiceModelOutput

参数

loss (torch.FloatTensor，形状为(1,)，可选，当提供labels时返回) — 分类损失。
logits (torch.FloatTensor，形状为(batch_size, num_choices)) — num_choices 是输入张量的第二个维度。（参见上面的input_ids）。

分类分数（SoftMax之前）。
hidden_states (tuple(torch.FloatTensor), 可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的输出）的形状为(batch_size, sequence_length, hidden_size)。

模型在每个层输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

在注意力softmax之后的注意力权重，用于计算自注意力头中的加权平均值。

多项选择模型输出的基类。

TokenClassifierOutput

class transformers.modeling_outputs.TokenClassifierOutput

参数

loss (torch.FloatTensor，形状为(1,)，可选，当提供labels时返回) — 分类损失。
logits (torch.FloatTensor，形状为(batch_size, sequence_length, config.num_labels)) — 分类分数（SoftMax之前）。
hidden_states (tuple(torch.FloatTensor), 可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的输出）的形状为(batch_size, sequence_length, hidden_size)。

模型在每个层输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

在注意力softmax之后的注意力权重，用于计算自注意力头中的加权平均值。

Token分类模型输出的基类。

QuestionAnsweringModelOutput

class transformers.modeling_outputs.QuestionAnsweringModelOutput

( loss: typing.Optional[torch.FloatTensor] = None start_logits: typing.Optional[torch.FloatTensor] = None end_logits: typing.Optional[torch.FloatTensor] = None hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

参数

loss (torch.FloatTensor，形状为(1,)，可选，当提供labels时返回) — 总跨度提取损失是起始位置和结束位置的交叉熵之和。
start_logits (torch.FloatTensor，形状为(batch_size, sequence_length)) — 跨度起始分数（SoftMax之前）。
end_logits (torch.FloatTensor，形状为(batch_size, sequence_length)) — 跨度结束分数（SoftMax之前）。
hidden_states (tuple(torch.FloatTensor), 可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的输出）的形状为(batch_size, sequence_length, hidden_size)。

模型在每个层输出处的隐藏状态，以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

在注意力softmax之后的注意力权重，用于计算自注意力头中的加权平均值。

问答模型输出的基类。

Seq2SeqQuestionAnsweringModelOutput

class transformers.modeling_outputs.Seq2SeqQuestionAnsweringModelOutput

( loss: typing.Optional[torch.FloatTensor] = None start_logits: typing.Optional[torch.FloatTensor] = None end_logits: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[transformers.cache_utils.EncoderDecoderCache] = None decoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None decoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_last_hidden_state: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None encoder_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

参数

loss (torch.FloatTensor，形状为(1,)，可选，当提供labels时返回) — 总跨度提取损失是起始位置和结束位置的交叉熵之和。
start_logits (torch.FloatTensor，形状为(batch_size, sequence_length)) — 跨度起始分数（SoftMax之前）。
end_logits (torch.FloatTensor，形状为(batch_size, sequence_length)) — 跨度结束分数（SoftMax之前）。
past_key_values (EncoderDecoderCache, 可选，当传入use_cache=True或config.use_cache=True时返回) — 这是一个 EncoderDecoderCache 实例。更多详情，请参阅我们的 kv 缓存指南。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于（参见past_key_values输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), 可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的输出）的形状为(batch_size, sequence_length, hidden_size)。

解码器在每个层输出处的隐藏状态，以及初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力softmax之后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力softmax之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层输出的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选，当传入output_hidden_states=True或config.output_hidden_states=True时返回) — torch.FloatTensor 的元组（一个用于嵌入层（如果模型有嵌入层）的输出，加上每个层的输出）的形状为(batch_size, sequence_length, hidden_size)。

编码器在每个层输出处的隐藏状态，以及初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选，当传入output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor 的元组（每层一个）的形状为(batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力softmax之后，用于计算自注意力头中的加权平均值。

序列到序列问答模型输出的基类。

Seq2SeqSpectrogramOutput

class transformers.modeling_outputs.Seq2SeqSpectrogramOutput