Transformers 文档

LongT5

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上协作

通过加速推理获得更快的示例

切换文档主题

开始使用

LongT5

概述

LongT5 模型在 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中被提出，作者是 Mandy Guo, Joshua Ainslie, David Uthus, Santiago Ontanon, Jianmo Ni, Yun-Hsuan Sung 和 Yinfei Yang。它是一个在文本到文本去噪生成设置中预训练的编码器-解码器 Transformer。LongT5 模型是 T5 模型的扩展，它可以使用两种不同的高效注意力机制之一 - (1) 局部注意力，或 (2) 瞬态-全局注意力。

论文的摘要如下：

最近的研究表明，(1) 增加输入长度或 (2) 增加模型大小都可以提高基于 Transformer 的神经模型的性能。在本文中，我们提出了一个名为 LongT5 的新模型，我们使用该模型同时探索缩放输入长度和模型大小的效果。具体来说，我们整合了来自长输入 Transformer (ETC) 的注意力思想，并将来自摘要预训练 (PEGASUS) 的预训练策略应用到可扩展的 T5 架构中。结果是一种新的注意力机制，我们称之为 {\em 瞬态全局} (TGlobal)，它模仿了 ETC 的局部/全局注意力机制，但不需要额外的侧输入。我们在几个摘要任务上取得了最先进的结果，并在问答任务上优于原始的 T5 模型。

此模型由 stancld 贡献。原始代码可以在这里找到。

使用技巧

LongT5ForConditionalGeneration 是 T5ForConditionalGeneration 的扩展，它将传统的编码器自注意力层替换为高效的局部注意力或瞬态-全局 (tglobal) 注意力。
与 T5 模型不同，LongT5 不使用任务前缀。此外，它使用了受 PegasusForConditionalGeneration 预训练启发的不同预训练目标。
LongT5 模型旨在在长程序列到序列任务上高效且出色地工作，其中输入序列超过常用的 512 个 tokens。它能够处理长度高达 16,384 个 tokens 的输入序列。
对于局部注意力，稀疏滑动窗口局部注意力操作允许给定的 token 仅关注其左侧和右侧的 r 个 tokens（默认情况下 r=127）。局部注意力不会向模型引入任何新参数。该机制的复杂度与输入序列长度 l 成线性关系：O(l*r)。
瞬时全局注意力 是 局部注意力 的扩展。它进一步允许每个输入 token 与层中的所有其他 token 交互。这是通过将输入序列分割成固定长度 k 的块（默认 k=16）来实现的。然后，通过对块中每个 token 的嵌入求和并进行归一化，获得该块的全局 token。 благодаря этому, 这种注意力机制允许每个 token 像局部注意力一样关注附近的 token，也允许像标准全局注意力一样关注每个全局 token（瞬时表示全局 token 是在每次注意力操作中动态构建的）。因此，TGlobal 注意力引入了一些新的参数 —— 全局相对位置偏差和全局 token 嵌入的层归一化。这种机制的复杂度为 O(l(r + l/k))。
以下示例展示了如何在 pubmed 数据集上评估微调后的 LongT5 模型。

>>> import evaluate
>>> from datasets import load_dataset
>>> from transformers import AutoTokenizer, LongT5ForConditionalGeneration

>>> dataset = load_dataset("scientific_papers", "pubmed", split="validation")
>>> model = (
...     LongT5ForConditionalGeneration.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")
...     .to("cuda")
...     .half()
... )
>>> tokenizer = AutoTokenizer.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")


>>> def generate_answers(batch):
...     inputs_dict = tokenizer(
...         batch["article"], max_length=16384, padding="max_length", truncation=True, return_tensors="pt"
...     )
...     input_ids = inputs_dict.input_ids.to("cuda")
...     attention_mask = inputs_dict.attention_mask.to("cuda")
...     output_ids = model.generate(input_ids, attention_mask=attention_mask, max_length=512, num_beams=2)
...     batch["predicted_abstract"] = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
...     return batch


>>> result = dataset.map(generate_answer, batched=True, batch_size=2)
>>> rouge = evaluate.load("rouge")
>>> rouge.compute(predictions=result["predicted_abstract"], references=result["abstract"])

资源

LongT5Config

class transformers.LongT5Config

< 源代码 >

( vocab_size = 32128 d_model = 512 d_kv = 64 d_ff = 2048 num_layers = 6 num_decoder_layers = None num_heads = 8 local_radius = 127 global_block_size = 16 relative_attention_num_buckets = 32 relative_attention_max_distance = 128 dropout_rate = 0.1 layer_norm_epsilon = 1e-06 initializer_factor = 1.0 feed_forward_proj = 'relu' is_encoder_decoder = True encoder_attention_type = 'local' use_cache = True pad_token_id = 0 eos_token_id = 1 **kwargs )

参数

vocab_size (int, 可选, 默认为 32128) — LongT5 模型的词汇表大小。定义了在调用 LongT5Model 时传递的 inputs_ids 可以表示的不同 token 的数量。
d_model (int, 可选, 默认为 512) — 编码器层和池化层的大小。
d_kv (int, 可选, 默认为 64) — 每个注意力头的键、查询、值投影的大小。 d_kv 必须等于 d_model // num_heads。
d_ff (int, 可选, 默认为 2048) — 每个 LongT5Block 中间前馈层的大小。
num_layers (int, 可选, 默认为 6) — Transformer 编码器中隐藏层的数量。
num_decoder_layers (int, 可选) — Transformer 解码器中隐藏层的数量。如果未设置，将使用与 num_layers 相同的值。
num_heads (int, 可选, 默认为 8) — Transformer 编码器中每个注意力层的注意力头数。
local_radius (int, 可选, 默认为 127) — 在局部注意力机制中，每个 token 局部自注意力关注的左/右 token 的数量。
global_block_size (int, 可选, 默认为 16) — 输入序列被分割成块的长度，用于全局 token 表示。仅用于 encoder_attention_type = "transient-global"。
relative_attention_num_buckets (int, 可选, 默认为 32) — 每个注意力层使用的 bucket 数量。
relative_attention_max_distance (int, 可选, 默认为 128) — 用于 bucket 分离的较长序列的最大距离。
dropout_rate (float, 可选, 默认为 0.1) — 所有 dropout 层的比率。
layer_norm_eps (float, 可选, 默认为 1e-6) — 层归一化层使用的 epsilon 值。
initializer_factor (float, 可选, 默认为 1) — 用于初始化所有权重矩阵的因子（应保持为 1，内部用于初始化测试）。
feed_forward_proj (string, 可选, 默认为 "relu") — 要使用的前馈层类型。应为 "relu" 或 "gated-gelu" 之一。 LongT5v1.1 使用 "gated-gelu" 前馈投影。原始 LongT5 实现使用 "gated-gelu"。
encoder_attention_type (string, 可选, 默认为 "local") — 要使用的编码器注意力类型。应为 LongT5 实现支持的 "local" 或 "transient-global" 之一。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。

这是用于存储 LongT5Model 或 FlaxLongT5Model 配置的配置类。它用于根据指定的参数实例化 LongT5 模型，定义模型架构。使用默认值实例化配置将产生与 LongT5 google/long-t5-local-base 架构类似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请阅读 PretrainedConfig 的文档。

Pytorch

隐藏 Pytorch 内容

LongT5Model

class transformers.LongT5Model

< 源代码 >

( config: LongT5Config )

参数

config (LongT5Config) — 带有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。

裸 LONGT5 模型 Transformer 输出原始隐藏状态，顶部没有任何特定的 head。

此模型继承自 PreTrainedModel。查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝 head 等）。

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与常规用法和行为相关的所有事项。

forward

< 源代码 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None decoder_head_mask: typing.Optional[torch.FloatTensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[typing.Tuple[typing.Tuple[torch.FloatTensor]]] = None past_key_values: typing.Optional[typing.Tuple[typing.Tuple[torch.FloatTensor]]] = None inputs_embeds: typing.Optional[torch.Tensor] = None decoder_inputs_embeds: typing.Optional[torch.Tensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 tokens 的索引。 LongT5 是一个使用相对位置嵌入的模型，因此您应该能够在右侧和左侧填充输入。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 IDs？

要了解更多关于如何为预训练准备 input_ids 的信息，请查看 LONGT5 训练。
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 用于避免在填充 token 索引上执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 表示 tokens 未被掩盖，
- 0 表示 tokens 被掩盖。
什么是注意力掩码？
decoder_input_ids (torch.LongTensor，形状为 (batch_size, target_sequence_length)，可选) — 词汇表中解码器输入序列 tokens 的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是解码器输入 IDs？

LONGT5 使用 pad_token_id 作为 decoder_input_ids 生成的起始 token。如果使用 past_key_values，则可以选择仅输入最后的 decoder_input_ids （请参阅 past_key_values）。

要了解更多关于如何为预训练准备 decoder_input_ids 的信息，请查看 LONGT5 训练。
decoder_attention_mask (torch.BoolTensor，形状为 (batch_size, target_sequence_length)，可选) — 默认行为：生成一个忽略 decoder_input_ids 中的填充 token 的张量。默认情况下，也将使用因果掩码。
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使编码器中自注意力模块的选定头无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头 未被掩盖，
- 0 表示头 被掩盖。
decoder_head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使解码器中自注意力模块的选定头无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头 未被掩盖，
- 0 表示头 被掩盖。
cross_attn_head_mask (torch.Tensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使解码器中交叉注意力模块的选定头无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头 未被掩盖，
- 0 表示头 被掩盖。
encoder_outputs (tuple(tuple(torch.FloatTensor)，可选) — 元组由 (last_hidden_state，optional: hidden_states，optional: attentions) 组成。形状为 (batch_size, sequence_length, hidden_size) 的 last_hidden_state 是编码器最后一层的输出处的隐藏状态序列。用于解码器的交叉注意力。
past_key_values (tuple(tuple(torch.FloatTensor))，长度为 config.n_layers，每个元组有 4 个形状为 (batch_size, num_heads, sequence_length - 1, embed_size_per_head) 的张量) — 包含注意力块的预计算的键和值隐藏状态。可用于加速解码。

如果使用 past_key_values，则用户可以选择仅输入最后的 decoder_input_ids （那些没有将其过去的键值状态提供给此模型的）形状为 (batch_size, 1) 而不是所有形状为 (batch_size, sequence_length) 的 decoder_input_ids。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — （可选）您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您想要比模型的内部嵌入查找矩阵更好地控制如何将 input_ids 索引转换为关联的向量，这将非常有用。
decoder_inputs_embeds (torch.FloatTensor，形状为 (batch_size, target_sequence_length, hidden_size)，可选) — （可选）您可以选择直接传递嵌入表示，而不是传递 decoder_input_ids。如果使用 past_key_values，则可以选择仅输入最后的 decoder_inputs_embeds （请参阅 past_key_values）。如果您想要比模型的内部嵌入查找矩阵更好地控制如何将 decoder_input_ids 索引转换为关联的向量，这将非常有用。

如果 decoder_input_ids 和 decoder_inputs_embeds 均未设置，则 decoder_inputs_embeds 采用 inputs_embeds 的值。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回的张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回的张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 索引，描述输入序列 tokens 在序列中的位置。它用于在正确的位置更新缓存并推断完整的序列长度。

transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqModelOutput 或 torch.FloatTensor 的元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包括各种元素，具体取决于配置 (LongT5Config) 和输入。

last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)) — 模型解码器最后一层输出处的隐藏状态序列。

如果使用 past_key_values，则仅输出形状为 (batch_size, 1, hidden_size) 的序列的最后隐藏状态。
past_key_values (tuple(tuple(torch.FloatTensor))，可选，当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可以用于（请参阅 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型具有嵌入层，则为嵌入输出一个，+ 每层输出一个），形状为 (batch_size, sequence_length, hidden_size)。

解码器在每一层输出处的隐藏状态加上可选的初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层输出处的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型具有嵌入层，则为嵌入输出一个，+ 每层输出一个），形状为 (batch_size, sequence_length, hidden_size)。

编码器在每一层输出处的隐藏状态加上可选的初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

LongT5Model 前向方法，覆盖了 __call__ 特殊方法。

尽管前向传递的配方需要在该函数内定义，但应该在此之后调用 Module 实例，而不是此方法，因为前者负责运行预处理和后处理步骤，而后者会静默地忽略它们。

示例

>>> from transformers import AutoTokenizer, LongT5Model

>>> tokenizer = AutoTokenizer.from_pretrained("google/long-t5-local-base")
>>> model = LongT5Model.from_pretrained("google/long-t5-local-base")

>>> # Let's try a very long encoder input.
>>> input_ids = tokenizer(
...     100 * "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids  # Batch size 1

>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

>>> # forward pass
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
>>> last_hidden_states = outputs.last_hidden_state

LongT5ForConditionalGeneration

class transformers.LongT5ForConditionalGeneration

< 源码 >

( config: LongT5Config )

参数

config (LongT5Config) — 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重，而只会加载配置。查看 from_pretrained() 方法以加载模型权重。

带有 language modeling 头的 LONGT5 模型。

此模型继承自 PreTrainedModel。查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝 head 等）。

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与常规用法和行为相关的所有事项。

forward

< 源代码 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None decoder_head_mask: typing.Optional[torch.FloatTensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[typing.Tuple[typing.Tuple[torch.Tensor]]] = None past_key_values: typing.Optional[typing.Tuple[typing.Tuple[torch.Tensor]]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 tokens 的索引。 LongT5 是一个使用相对位置嵌入的模型，因此你应该能够在右侧和左侧填充输入。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 IDs？

要了解更多关于如何为预训练准备 input_ids 的信息，请查看 LONGT5 训练。
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length), *可选的*) — 用于避免在填充 token 索引上执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 表示 token 未被掩码，
- 0 表示 token 已被掩码。
什么是注意力掩码？
decoder_input_ids (torch.LongTensor，形状为 (batch_size, target_sequence_length), *可选的*) — 词汇表中解码器输入序列 tokens 的索引。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是解码器输入 IDs？

LONGT5 使用 pad_token_id 作为 decoder_input_ids 生成的起始 token。如果使用 past_key_values，则可以选择仅输入最后的 decoder_input_ids （请参阅 past_key_values）。

要了解更多关于如何为预训练准备 decoder_input_ids 的信息，请查看 LONGT5 训练。
decoder_attention_mask (torch.BoolTensor，形状为 (batch_size, target_sequence_length), *可选的*) — 默认行为：生成一个忽略 decoder_input_ids 中的填充 token 的 tensor。默认情况下，也将使用因果掩码。
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads), *可选的*) — 用于使编码器中自注意力模块的选定头无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头 未被掩码，
- 0 表示头 已被掩码。
decoder_head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads), *可选的*) — 用于使解码器中自注意力模块的选定头无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头 未被掩码，
- 0 表示头 已被掩码。
cross_attn_head_mask (torch.Tensor，形状为 (num_heads,) 或 (num_layers, num_heads), *可选的*) — 用于使解码器中交叉注意力模块的选定头无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头 未被掩码，
- 0 表示头 已被掩码。
encoder_outputs (tuple(tuple(torch.FloatTensor), *可选的*) — Tuple 由 (last_hidden_state, optional: *hidden_states*, optional: *attentions*) 组成。形状为 (batch_size, sequence_length, hidden_size) 的 last_hidden_state 是编码器最后一层输出处的隐藏状态序列。在解码器的交叉注意力中使用。
past_key_values (tuple(tuple(torch.FloatTensor))，长度为 config.n_layers，每个 tuple 具有 4 个形状为 (batch_size, num_heads, sequence_length - 1, embed_size_per_head) 的 tensors) — 包含注意力模块的预先计算的键和值隐藏状态。可用于加速解码。

如果使用 past_key_values，则用户可以选择仅输入最后的 decoder_input_ids （那些没有将其过去的键值状态提供给此模型的）形状为 (batch_size, 1)，而不是所有形状为 (batch_size, sequence_length) 的 decoder_input_ids。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size), *可选的*) — 或者，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联的向量，这将非常有用。
decoder_inputs_embeds (torch.FloatTensor，形状为 (batch_size, target_sequence_length, hidden_size), *可选的*) — 或者，您可以选择直接传递嵌入表示，而不是传递 decoder_input_ids。如果使用 past_key_values，则可以选择仅输入最后的 decoder_inputs_embeds （请参阅 past_key_values）。如果您希望比模型的内部嵌入查找矩阵更精细地控制如何将 decoder_input_ids 索引转换为关联的向量，这将非常有用。

如果 decoder_input_ids 和 decoder_inputs_embeds 均未设置，则 decoder_inputs_embeds 采用 inputs_embeds 的值。
use_cache (bool, *可选的*) — 如果设置为 True，则返回 past_key_values 键值状态，并且可以用于加速解码（请参阅 past_key_values）。
output_attentions (bool, *可选的*) — 是否返回所有注意力层的注意力 tensors。有关更多详细信息，请参见返回的 tensors 下的 attentions。
output_hidden_states (bool, *可选的*) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回的 tensors 下的 hidden_states。
return_dict (bool, *可选的*) — 是否返回 ModelOutput 而不是普通 tuple。
cache_position (torch.LongTensor，形状为 (sequence_length), *可选的*) — 描述输入序列 tokens 在序列中位置的索引。它用于在正确的位置更新缓存并推断完整序列长度。
labels (torch.LongTensor，形状为 (batch_size,), *可选的*) — 用于计算序列分类/回归损失的标签。索引应在 [-100, 0, ..., config.vocab_size - 1] 中。所有设置为 -100 的标签都将被忽略（掩码），损失仅针对 [0, ..., config.vocab_size] 中的标签计算

transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqLMOutput 或一个 torch.FloatTensor 的 tuple（如果传递了 return_dict=False 或当 config.return_dict=False 时），其中包含各种元素，具体取决于配置 (LongT5Config) 和输入。

loss (torch.FloatTensor，形状为 (1,), *可选的*, 当提供 labels 时返回) — 语言建模损失。
logits (torch.FloatTensor，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数（SoftMax 之前每个词汇表 token 的分数）。
past_key_values (tuple(tuple(torch.FloatTensor))，可选，当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加张量。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可以用于（请参阅 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型具有嵌入层，则为嵌入输出一个，+ 每层输出一个），形状为 (batch_size, sequence_length, hidden_size)。

解码器在每一层输出端的隐藏状态，加上初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层输出处的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的元组（如果模型具有嵌入层，则为嵌入输出一个，+ 每层输出一个），形状为 (batch_size, sequence_length, hidden_size)。

编码器在每一层输出端的隐藏状态，加上初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

LongT5ForConditionalGeneration forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, LongT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")
>>> model = LongT5ForConditionalGeneration.from_pretrained(
...     "Stancld/longt5-tglobal-large-16384-pubmed-3k_steps"
... )

>>> # Let's try a very long input.
>>> inputs = tokenizer(100 * "studies have shown that owning a dog is good for you ", return_tensors="pt")
>>> input_ids = inputs.input_ids

>>> outputs = model.generate(input_ids)
>>> print(tokenizer.decode(outputs[0], skip_special_tokens=True))
abstractthe aim of this article is to provide an overview of the literature on the role of dog

LongT5EncoderModel

class transformers.LongT5EncoderModel

< 源代码 >

( config: LongT5Config )

参数

config (LongT5Config) — 模型配置类，包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重，仅加载配置。查看 from_pretrained() 方法以加载模型权重。

裸 LONGT5 模型 transformer，输出编码器的原始隐藏状态，顶部没有任何特定的头部。

此模型继承自 PreTrainedModel。查看超类文档，了解库为其所有模型实现的通用方法（例如下载或保存、调整输入嵌入大小、剪枝 head 等）。

此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块，并参阅 PyTorch 文档，了解与常规用法和行为相关的所有事项。

forward

< 源代码 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 tokens 的索引。 LongT5 是一个使用相对位置嵌入的模型，因此您应该能够在inputs的左右两侧进行填充。

索引可以使用 AutoTokenizer 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 以获取详细信息。

要了解更多关于如何为预训练准备 input_ids，请查看 LONGT5 训练。
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 用于避免在 padding token 索引上执行 attention 的掩码。 Mask values 选自 [0, 1]：
- 1 表示 tokens 未被掩盖，
- 0 表示 tokens 被掩盖。
什么是 attention masks？
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于 nullify self-attention 模块中选定 head 的掩码。 Mask values 选自 [0, 1]：
- 1 表示 head 未被掩盖，
- 0 表示 head 被掩盖。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示而不是传递 input_ids。如果您想要比模型的内部嵌入查找矩阵更好地控制如何将 input_ids 索引转换为关联向量，这将非常有用。
output_attentions (bool，可选) — 是否返回所有 attention 层的 attention tensors。有关更多详细信息，请参阅返回 tensors 下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的 hidden states。有关更多详细信息，请参阅返回 tensors 下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是纯 tuple。

transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutput 或一个 torch.FloatTensor 的 tuple (如果传递了 return_dict=False 或当 config.return_dict=False 时)，包含各种元素，具体取决于配置 (LongT5Config) 和 inputs。

last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层的输出端的 hidden-states 序列。
hidden_states (tuple(torch.FloatTensor)，可选，当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — torch.FloatTensor 的 Tuple (如果模型具有嵌入层，则为嵌入的输出 + 每层的输出一个)，形状为 (batch_size, sequence_length, hidden_size)。

模型在每一层输出端的 Hidden-states 加上可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — torch.FloatTensor 的 Tuple (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

attention softmax 之后的 Attention 权重，用于计算 self-attention heads 中的加权平均值。

LongT5EncoderModel forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, LongT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("google/long-t5-local-base")
>>> model = LongT5EncoderModel.from_pretrained("google/long-t5-local-base")
>>> input_ids = tokenizer(
...     100 * "Studies have been shown that owning a dog is good for you ", return_tensors="pt"
... ).input_ids  # Batch size 1
>>> outputs = model(input_ids=input_ids)
>>> last_hidden_states = outputs.last_hidden_state

JAX

隐藏 JAX 内容

FlaxLongT5Model

class transformers.FlaxLongT5Model

< source >

( config: LongT5Config input_shape: typing.Tuple[int] = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

call

< source >

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None decoder_input_ids: Array = None decoder_attention_mask: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: dict = None dropout_rng: <function PRNGKey at 0x7f787eb14310> = None ) → transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或 tuple(torch.FloatTensor)

参数

input_ids (jnp.ndarray，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 tokens 的索引。 LongT5 是一个使用相对位置嵌入的模型，因此您应该能够在inputs的左右两侧进行填充。

索引可以使用 AutoTokenizer 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 以获取详细信息。

什么是 input IDs？

要了解更多关于如何为预训练准备 input_ids，请查看 LONGT5 训练。
attention_mask (jnp.ndarray，形状为 (batch_size, sequence_length)，可选) — 用于避免在 padding token 索引上执行 attention 的掩码。 Mask values 选自 [0, 1]：
- 1 表示 tokens 未被掩盖，
- 0 表示 tokens 被掩盖。
什么是 attention masks？
decoder_input_ids (jnp.ndarray，形状为 (batch_size, target_sequence_length)，可选) — 词汇表中 decoder 输入序列 tokens 的索引。

索引可以使用 AutoTokenizer 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 以获取详细信息。

什么是 decoder input IDs？

LONGT5 使用 pad_token_id 作为 decoder_input_ids 生成的起始 token。如果使用 past_key_values，则可以选择仅输入最后的 decoder_input_ids (那些没有将其过去的 key value states 提供给此模型的) (请参阅 past_key_values)。

要了解更多关于如何为预训练准备 decoder_input_ids，请查看 LONGT5 训练。
decoder_attention_mask (jnp.ndarray，形状为 (batch_size, target_sequence_length)，可选) — 默认行为：生成一个忽略 decoder_input_ids 中的 pad tokens 的 tensor。默认情况下，也将使用因果掩码。
encoder_outputs (tuple(tuple(jnp.ndarray)，可选) — Tuple 由 (last_hidden_state，optional: hidden_states，optional: attentions) 组成。形状为 (batch_size, sequence_length, hidden_size) 的 last_hidden_state 是 encoder 最后一层输出端的 hidden states 序列。在 decoder 的 cross-attention 中使用。
past_key_values (tuple(tuple(jnp.ndarray))，长度为 config.n_layers，每个 tuple 具有 4 个形状为 (batch_size, num_heads, sequence_length - 1, embed_size_per_head) 的 tensors) — 包含 attention blocks 的预计算 key 和 value hidden states。可用于加速解码。

如果使用 past_key_values，则用户可以选择仅输入最后的 decoder_input_ids (那些没有将其过去的 key value states 提供给此模型的)，形状为 (batch_size, 1)，而不是所有形状为 (batch_size, sequence_length) 的 decoder_input_ids。

transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或一个 torch.FloatTensor 的 tuple (如果传递了 return_dict=False 或当 config.return_dict=False 时)，包含各种元素，具体取决于配置 (LongT5Config) 和 inputs。

logits (jnp.ndarray，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模 head 的预测分数（SoftMax 之前每个词汇 tokens 的分数）。
past_key_values (tuple(tuple(jnp.ndarray))，可选，当传递了 use_cache=True 或当 config.use_cache=True 时返回) — tuple(jnp.ndarray) 的 Tuple，长度为 config.n_layers，每个 tuple 具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head)) 的 tensors 和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加 tensors。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可以用于（请参阅 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(jnp.ndarray)，可选，当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 的 Tuple (嵌入的输出一个 + 每层的输出一个)，形状为 (batch_size, sequence_length, hidden_size)。

解码器在每一层输出端的隐藏状态，加上初始嵌入输出。
decoder_attentions (tuple(jnp.ndarray)，可选，当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的 Tuple (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(jnp.ndarray)，可选，当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的 Tuple (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state (jnp.ndarray，形状为 (batch_size, sequence_length, hidden_size)，可选) — 模型 encoder 最后一层输出端的 hidden-states 序列。
encoder_hidden_states (tuple(jnp.ndarray)，可选，当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 的 Tuple (嵌入的输出一个 + 每层的输出一个)，形状为 (batch_size, sequence_length, hidden_size)。

编码器在每一层输出端的隐藏状态，加上初始嵌入输出。
encoder_attentions (tuple(jnp.ndarray)，可选，当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的 Tuple (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

FlaxLongT5PreTrainedModel forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5Model

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5Model.from_pretrained("google/long-t5-local-base")

>>> input_ids = tokenizer(
...     "Studies have been shown that owning a dog is good for you", return_tensors="np"
... ).input_ids
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="np").input_ids

>>> # forward pass
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
>>> last_hidden_states = outputs.last_hidden_state

encode

< source >

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: dict = None dropout_rng: <function PRNGKey at 0x7f787eb14310> = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)

参数

input_ids (jnp.ndarray，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 tokens 的索引。 LongT5 是一个使用相对位置嵌入的模型，因此您应该能够在inputs的左右两侧进行填充。

索引可以使用 AutoTokenizer 获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 以获取详细信息。

要了解更多关于如何为预训练准备 input_ids，请查看 LONGT5 训练。
attention_mask (jnp.ndarray，形状为 (batch_size, sequence_length)，可选) — 用于避免在 padding token 索引上执行 attention 的掩码。 Mask values 选自 [0, 1]：
- 1 表示 tokens 未被掩盖，
- 0 表示 tokens 被掩盖。
什么是 attention masks？
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。详见返回张量下的 attentions 部分以了解更多详情。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。详见返回张量下的 hidden_states 部分以了解更多详情。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通的元组。

transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或一个 torch.FloatTensor 元组 (如果在传递 return_dict=False 时，或者当 config.return_dict=False 时)，其中包含各种元素，具体取决于配置 (<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>) 和输入。

last_hidden_state (jnp.ndarray，形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层的输出处的隐藏状态序列。
hidden_states (tuple(jnp.ndarray), optional, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 的元组 (每个嵌入输出一个，每层输出一个)，形状为 (batch_size, sequence_length, hidden_size)。

模型在每一层输出的隐藏状态，加上初始嵌入输出。
attentions (tuple(jnp.ndarray), optional, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的元组 (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

attention softmax 之后的 Attention 权重，用于计算 self-attention heads 中的加权平均值。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)

decode

< source >

( decoder_input_ids encoder_outputs encoder_attention_mask: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None past_key_values: dict = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: dict = None dropout_rng: <function PRNGKey at 0x7f787eb14310> = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)

参数

decoder_input_ids (jnp.ndarray，形状为 (batch_size, target_sequence_length)) — 解码器输入序列 tokens 在词汇表中的索引。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是解码器输入 ID？

对于训练，应该提供 decoder_input_ids。
encoder_outputs (tuple(tuple(jnp.ndarray)) — 元组由 (last_hidden_state, optional: hidden_states, optional: attentions) 组成，其中 last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size)，optional) 是编码器最后一层输出处的隐藏状态序列。在解码器的交叉注意力中被使用。
encoder_attention_mask (jnp.ndarray，形状为 (batch_size, sequence_length), optional) — 用于避免在 padding token 索引上执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 表示 未被掩盖 的 tokens，
- 0 表示 被掩盖 的 tokens。
什么是注意力掩码？
decoder_attention_mask (jnp.ndarray，形状为 (batch_size, target_sequence_length), optional) — 默认行为：生成一个忽略 decoder_input_ids 中 pad tokens 的张量。默认情况下，也将使用因果掩码。

如果您想更改 padding 行为，您应该根据您的需求进行修改。有关默认策略的更多信息，请参阅论文中的图 1。
past_key_values (Dict[str, np.ndarray], optional, 由 init_cache 返回，或者当传递之前的 past_key_values 时返回) — 预先计算的隐藏状态字典（注意力模块中的键和值），可用于快速自回归解码。预先计算的键和值隐藏状态的形状为 [batch_size, max_length]。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。详见返回张量下的 attentions 部分以了解更多详情。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。详见返回张量下的 hidden_states 部分以了解更多详情。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通的元组。

transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或一个 torch.FloatTensor 元组 (如果在传递 return_dict=False 时，或者当 config.return_dict=False 时)，其中包含各种元素，具体取决于配置 (<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>) 和输入。

last_hidden_state (jnp.ndarray，形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层的输出处的隐藏状态序列。

如果使用 past_key_values，则仅输出形状为 (batch_size, 1, hidden_size) 的序列的最后隐藏状态。
past_key_values (tuple(tuple(jnp.ndarray)), optional, 当传递 use_cache=True 或当 config.use_cache=True 时返回) — tuple(jnp.ndarray) 的元组，长度为 config.n_layers，其中每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量)，并且如果 config.is_encoder_decoder=True，则可选地包含 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的额外张量。

包含预先计算的隐藏状态（自注意力模块中的键和值，以及如果 config.is_encoder_decoder=True，则可选地包含交叉注意力模块中的键和值），这些隐藏状态可以用于（参见 past_key_values 输入）加速顺序解码。
hidden_states (tuple(jnp.ndarray), optional, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 的元组 (每个嵌入输出一个，每层输出一个)，形状为 (batch_size, sequence_length, hidden_size)。

模型在每一层输出的隐藏状态，加上初始嵌入输出。
attentions (tuple(jnp.ndarray), optional, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的元组 (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

attention softmax 之后的 Attention 权重，用于计算 self-attention heads 中的加权平均值。
cross_attentions (tuple(jnp.ndarray), optional, 当传递 output_attentions=True 和 config.add_cross_attention=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的元组（每层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration
>>> import jax.numpy as jnp

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)

>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id

>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> logits = outputs.logits

FlaxLongT5ForConditionalGeneration

class transformers.FlaxLongT5ForConditionalGeneration

< source >

( config: LongT5Config input_shape: typing.Tuple[int] = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

call

< source >

参数

input_ids (jnp.ndarray，形状为 (batch_size, sequence_length)) — 输入序列 tokens 在词汇表中的索引。 LongT5 是一个具有相对位置嵌入的模型，因此您应该能够在右侧和左侧填充输入。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？

要了解有关如何为预训练准备 input_ids 的更多信息，请查看 LONGT5 训练。
attention_mask (jnp.ndarray，形状为 (batch_size, sequence_length), optional) — 用于避免在 padding token 索引上执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 表示 未被掩盖 的 tokens，
- 0 表示 被掩盖 的 tokens。
什么是注意力掩码？
decoder_input_ids (jnp.ndarray，形状为 (batch_size, target_sequence_length), optional) — 解码器输入序列 tokens 在词汇表中的索引。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是解码器输入 ID？

LONGT5 使用 pad_token_id 作为 decoder_input_ids 生成的起始 token。如果使用 past_key_values，则可以选择仅输入最后一个 decoder_input_ids（请参阅 past_key_values）。

要了解有关如何为预训练准备 decoder_input_ids 的更多信息，请查看 LONGT5 训练。
decoder_attention_mask (jnp.ndarray，形状为 (batch_size, target_sequence_length), optional) — 默认行为：生成一个忽略 decoder_input_ids 中 pad tokens 的张量。默认情况下，也将使用因果掩码。
encoder_outputs (tuple(tuple(jnp.ndarray), 可选) — 由 (last_hidden_state, 可选: hidden_states, 可选: attentions) 组成的元组。形状为 (batch_size, sequence_length, hidden_size) 的 last_hidden_state 是编码器最后一层的输出的隐藏状态序列。在解码器的交叉注意力机制中使用。
past_key_values (长度为 config.n_layers 的 tuple(tuple(jnp.ndarray))，其中每个元组有 4 个形状为 (batch_size, num_heads, sequence_length - 1, embed_size_per_head) 的张量) — 包含注意力模块的预计算的键和值隐藏状态。可用于加速解码。

如果使用 past_key_values，用户可以选择仅输入最后一次的 decoder_input_ids (那些没有将其过去的键值状态提供给此模型的)，形状为 (batch_size, 1)，而不是所有形状为 (batch_size, sequence_length) 的 decoder_input_ids。

transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或 tuple(torch.FloatTensor)

logits (jnp.ndarray，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模 head 的预测分数（SoftMax 之前每个词汇 tokens 的分数）。
past_key_values (tuple(tuple(jnp.ndarray))，可选，当传递了 use_cache=True 或当 config.use_cache=True 时返回) — tuple(jnp.ndarray) 的 Tuple，长度为 config.n_layers，每个 tuple 具有 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head)) 的 tensors 和 2 个形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的附加 tensors。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可以用于（请参阅 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(jnp.ndarray)，可选，当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 的 Tuple (嵌入的输出一个 + 每层的输出一个)，形状为 (batch_size, sequence_length, hidden_size)。

解码器在每一层输出端的隐藏状态，加上初始嵌入输出。
decoder_attentions (tuple(jnp.ndarray)，可选，当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的 Tuple (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。
cross_attentions (tuple(jnp.ndarray)，可选，当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的 Tuple (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均值。
encoder_last_hidden_state (jnp.ndarray，形状为 (batch_size, sequence_length, hidden_size)，可选) — 模型 encoder 最后一层输出端的 hidden-states 序列。
encoder_hidden_states (tuple(jnp.ndarray)，可选，当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 的 Tuple (嵌入的输出一个 + 每层的输出一个)，形状为 (batch_size, sequence_length, hidden_size)。

编码器在每一层输出端的隐藏状态，加上初始嵌入输出。
encoder_attentions (tuple(jnp.ndarray)，可选，当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的 Tuple (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均值。

FlaxLongT5PreTrainedModel forward 方法，覆盖了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")

>>> ARTICLE_TO_SUMMARIZE = "summarize: My friends are cool but they eat too many carbs."
>>> inputs = tokenizer([ARTICLE_TO_SUMMARIZE], return_tensors="np")

>>> # Generate Summary
>>> summary_ids = model.generate(inputs["input_ids"]).sequences
>>> print(tokenizer.decode(summary_ids[0], skip_special_tokens=True, clean_up_tokenization_spaces=False))

encode

< source >

参数

input_ids (形状为 (batch_size, sequence_length) 的 jnp.ndarray) — 词汇表中输入序列 tokens 的索引。 LongT5 是一个具有相对位置嵌入的模型，因此您应该能够在右侧和左侧填充输入。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

要了解更多关于如何为预训练准备 input_ids 的信息，请查看 LONGT5 训练。
attention_mask (形状为 (batch_size, sequence_length) 的 jnp.ndarray, 可选) — 用于避免在 padding token 索引上执行注意力的 Mask。Mask 值在 [0, 1] 中选择：
- 1 代表 未被 Mask 的 tokens，
- 0 代表 被 Mask 的 tokens。
什么是注意力 Mask？
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。

transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)

last_hidden_state (jnp.ndarray，形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层的输出处的隐藏状态序列。
hidden_states (tuple(jnp.ndarray), optional, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 的元组 (每个嵌入输出一个，每层输出一个)，形状为 (batch_size, sequence_length, hidden_size)。

模型在每一层输出的隐藏状态，加上初始嵌入输出。
attentions (tuple(jnp.ndarray), optional, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的元组 (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

attention softmax 之后的 Attention 权重，用于计算 self-attention heads 中的加权平均值。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)

decode

< source >

( decoder_input_ids encoder_outputs encoder_attention_mask: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None past_key_values: dict = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: dict = None dropout_rng: <function PRNGKey at 0x7f787eb14310> = None ) → transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)

参数

decoder_input_ids (形状为 (batch_size, target_sequence_length) 的 jnp.ndarray) — 词汇表中解码器输入序列 tokens 的索引。

索引可以使用 AutoTokenizer 获得。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是解码器输入 IDs？

对于训练，应该提供 decoder_input_ids。
encoder_outputs (tuple(tuple(jnp.ndarray)) — 由 (last_hidden_state, 可选: hidden_states, 可选: attentions) 组成的元组。形状为 (batch_size, sequence_length, hidden_size) 的 last_hidden_state, 可选) 是编码器最后一层输出的隐藏状态序列。在解码器的交叉注意力机制中使用。
encoder_attention_mask (形状为 (batch_size, sequence_length) 的 jnp.ndarray, 可选) — 用于避免在 padding token 索引上执行注意力的 Mask。Mask 值在 [0, 1] 中选择：
- 1 代表 未被 Mask 的 tokens，
- 0 代表 被 Mask 的 tokens。
什么是注意力 Mask？
decoder_attention_mask (形状为 (batch_size, target_sequence_length) 的 jnp.ndarray, 可选) — 默认行为：生成一个忽略 decoder_input_ids 中的 pad tokens 的张量。默认情况下，也将使用因果 Mask。

如果要更改 padding 行为，则应根据您的需要进行修改。有关默认策略的更多信息，请参见论文中的图 1。
past_key_values (Dict[str, np.ndarray], 可选, 由 init_cache 返回或在传递先前的 past_key_values 时返回) — 预先计算的隐藏状态字典（注意力模块中的键和值），可用于快速自回归解码。预先计算的键和值隐藏状态的形状为 [batch_size, max_length]。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。

transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或 torch.FloatTensor 的元组 (如果传递了 return_dict=False 或当 config.return_dict=False 时)，其中包含各种元素，具体取决于配置 (<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>) 和输入。

logits (jnp.ndarray，形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模 head 的预测分数（SoftMax 之前每个词汇 tokens 的分数）。
hidden_states (tuple(jnp.ndarray), optional, 当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — jnp.ndarray 的元组 (每个嵌入输出一个，每层输出一个)，形状为 (batch_size, sequence_length, hidden_size)。

模型在每一层输出的隐藏状态，加上初始嵌入输出。
attentions (tuple(jnp.ndarray), optional, 当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的元组 (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

attention softmax 之后的 Attention 权重，用于计算 self-attention heads 中的加权平均值。
cross_attentions (tuple(jnp.ndarray)，可选，当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — jnp.ndarray 的 Tuple (每层一个)，形状为 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 之后的交叉注意力权重，用于计算交叉注意力头中的加权平均值。
past_key_values (tuple(tuple(jnp.ndarray)), 可选, 当传递 use_cache=True 或当 config.use_cache=True 时返回) — 长度为 config.n_layers 的 jnp.ndarray 元组的元组，如果模型用于编码器-解码器设置，则每个元组都包含自注意力和交叉注意力层的缓存键、值状态。仅在 config.is_decoder = True 时相关。

包含预先计算的隐藏状态（注意力模块中的键和值），可以用于（请参阅 past_key_values 输入）加速顺序解码。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration
>>> import jax.numpy as jnp

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")

>>> text = "summarize: My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)

>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id

>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> logits = outputs.logits

< > 更新在 GitHub 上

←Longformer LUKE→