Transformers 文档

LongT5

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

LongT5

PyTorch Flax

概述

LongT5 模型由 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung 和 Yinfei Yang 在论文 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中提出。它是一个在文本到文本去噪生成设置中预训练的编码器-解码器 Transformer。LongT5 模型是 T5 模型的扩展,它支持使用两种不同的高效注意力机制之一——(1)局部注意力(Local attention),或(2)瞬时全局注意力(Transient-Global attention)。

论文摘要如下:

最近的研究表明,(1)增加输入长度或(2)增加模型大小都可以提高基于 Transformer 的神经模型的性能。在本文中,我们提出了一个名为 LongT5 的新模型,用它来探索同时扩展输入长度和模型大小的效果。具体来说,我们将长输入 Transformer(ETC)的注意力思想整合进来,并将摘要预训练(PEGASUS)的预训练策略应用于可扩展的 T5 架构中。其结果是一种我们称之为 {\em 瞬时全局} (TGlobal) 的新注意力机制,它模拟了 ETC 的局部/全局注意力机制,但不需要额外的侧输入。我们在几个摘要任务上取得了最先进的结果,并在问答任务上优于原始的 T5 模型。

此模型由 stancld 贡献。原始代码可以在这里找到。

使用技巧

  • LongT5ForConditionalGenerationT5ForConditionalGeneration 的一个扩展,它将传统的编码器*自注意力*层替换为高效的*局部*注意力或*瞬时全局*(*tglobal*)注意力。
  • 与 T5 模型不同,LongT5 不使用任务前缀。此外,它使用了一种不同的预训练目标,灵感来自于 PegasusForConditionalGeneration 的预训练。
  • LongT5 模型设计用于高效且出色地处理长距离*序列到序列*任务,其输入序列长度超过了常用的 512 个 token。它能够处理长度最多为 16,384 个 token 的输入序列。
  • 对于*局部注意力*,稀疏的滑动窗口局部注意力操作允许给定 token 只关注其左右各 `r` 个 token(默认 `r=127`)。*局部注意力*不会给模型引入任何新参数。该机制的复杂度与输入序列长度 `l` 呈线性关系:`O(l*r)`。
  • 瞬时全局注意力是*局部注意力*的扩展。它进一步允许每个输入 token 与层中的所有其他 token 进行交互。这是通过将输入序列分割成固定长度 `k`(默认 `k=16`)的块来实现的。然后,通过对块中每个 token 的嵌入进行求和和归一化,得到该块的全局 token。因此,注意力机制允许每个 token 既像局部注意力一样关注附近的 token,也像标准全局注意力一样关注每个全局 token(“瞬时”表示全局 token 是在每个注意力操作中动态构建的)。因此,*TGlobal* 注意力引入了一些新参数——全局相对位置偏置和用于全局 token 嵌入的层归一化。该机制的复杂度为 `O(l(r + l/k))`。
  • 下面是一个示例,展示了如何在 pubmed 数据集上评估一个微调过的 LongT5 模型。
>>> import evaluate
>>> from datasets import load_dataset
>>> from transformers import AutoTokenizer, LongT5ForConditionalGeneration

>>> dataset = load_dataset("scientific_papers", "pubmed", split="validation")
>>> model = (
...     LongT5ForConditionalGeneration.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")
...     .to("cuda")
...     .half()
... )
>>> tokenizer = AutoTokenizer.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")


>>> def generate_answers(batch):
...     inputs_dict = tokenizer(
...         batch["article"], max_length=16384, padding="max_length", truncation=True, return_tensors="pt"
...     )
...     input_ids = inputs_dict.input_ids.to("cuda")
...     attention_mask = inputs_dict.attention_mask.to("cuda")
...     output_ids = model.generate(input_ids, attention_mask=attention_mask, max_length=512, num_beams=2)
...     batch["predicted_abstract"] = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
...     return batch


>>> result = dataset.map(generate_answer, batched=True, batch_size=2)
>>> rouge = evaluate.load("rouge")
>>> rouge.compute(predictions=result["predicted_abstract"], references=result["abstract"])

资源

LongT5Config

class transformers.LongT5Config

< >

( vocab_size = 32128 d_model = 512 d_kv = 64 d_ff = 2048 num_layers = 6 num_decoder_layers = None num_heads = 8 local_radius = 127 global_block_size = 16 relative_attention_num_buckets = 32 relative_attention_max_distance = 128 dropout_rate = 0.1 layer_norm_epsilon = 1e-06 initializer_factor = 1.0 feed_forward_proj = 'relu' is_encoder_decoder = True encoder_attention_type = 'local' use_cache = True pad_token_id = 0 eos_token_id = 1 **kwargs )

参数

  • vocab_size (int, 可选, 默认为 32128) — LongT5 模型的词汇表大小。定义了在调用 LongT5Model 时,`inputs_ids` 可以表示的不同 token 的数量。
  • d_model (int, 可选, 默认为 512) — 编码器层和池化层的大小。
  • d_kv (int, 可选, 默认为 64) — 每个注意力头的键、查询、值投影的大小。`d_kv` 必须等于 `d_model // num_heads`。
  • d_ff (int, 可选, 默认为 2048) — 每个 `LongT5Block` 中中间前馈层的大小。
  • num_layers (int, 可选, 默认为 6) — Transformer 编码器中的隐藏层数量。
  • num_decoder_layers (int, 可选) — Transformer 解码器中的隐藏层数量。如果未设置,将使用与 `num_layers` 相同的值。
  • num_heads (int, 可选, 默认为 8) — Transformer 编码器中每个注意力层的注意力头数量。
  • local_radius (int, 可选, 默认为 127) — 在局部注意力机制中,每个 token 左右两侧进行局部自注意力计算的 token 数量。
  • global_block_size (int, 可选, 默认为 16) — 用于将输入序列划分为块以进行全局 token 表示的块长度。仅用于 `encoder_attention_type = "transient-global"`。
  • relative_attention_num_buckets (int, 可选, 默认为 32) — 每个注意力层使用的桶的数量。
  • relative_attention_max_distance (int, 可选, 默认为 128) — 用于桶分离的较长序列的最大距离。
  • dropout_rate (float, 可选, 默认为 0.1) — 所有 dropout 层的比率。
  • layer_norm_eps (float, 可选, 默认为 1e-6) — 层归一化层使用的 epsilon 值。
  • initializer_factor (float, 可选, 默认为 1) — 用于初始化所有权重矩阵的因子(应保持为 1,内部用于初始化测试)。
  • feed_forward_proj (string, 可选, 默认为 `"relu"`) — 要使用的前馈层类型。应为 `"relu"` 或 `"gated-gelu"` 之一。LongT5v1.1 使用 `"gated-gelu"` 前馈投影。原始 LongT5 实现使用 `"gated-gelu"`。
  • encoder_attention_type (string, 可选, 默认为 `"local"`) — 要使用的编码器注意力类型。应为 `"local"` 或 `"transient-global"` 之一,这些是 LongT5 实现支持的类型。
  • use_cache (bool, 可选, 默认为 `True`) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。

这是一个配置类,用于存储 LongT5ModelFlaxLongT5Model 的配置。它根据指定的参数实例化一个 LongT5 模型,定义模型架构。使用默认值实例化配置将产生与 LongT5 google/long-t5-local-base 架构类似的配置。

配置对象继承自 PretrainedConfig,可用于控制模型输出。请阅读 PretrainedConfig 的文档以获取更多信息。

Pytorch
隐藏 Pytorch 内容

LongT5Model

class transformers.LongT5Model

< >

( config: LongT5Config )

参数

  • config (LongT5Config) — 包含模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

无任何特定头部的 LongT5 裸模型,输出原始隐藏状态。

该模型继承自 PreTrainedModel。请查看超类文档,了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。

该模型也是 PyTorch torch.nn.Module 的子类。可以像常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None decoder_head_mask: typing.Optional[torch.FloatTensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None past_key_values: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None inputs_embeds: typing.Optional[torch.Tensor] = None decoder_inputs_embeds: typing.Optional[torch.Tensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) transformers.modeling_outputs.Seq2SeqModelOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。LongT5 是一个带有相对位置嵌入的模型,因此你应该能够在输入的左侧和右侧进行填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

    要了解更多关于如何为预训练准备 input_ids 的信息,请参阅 LONGT5 训练

  • attention_mask (torch.FloatTensor,形状为 (batch_size, sequence_length)可选) — 用于避免在填充标记索引上执行注意力操作的掩码。掩码值选自 [0, 1]

    • 1 表示标记未被掩码
    • 0 表示标记被掩码

    什么是注意力掩码?

  • decoder_input_ids (torch.LongTensor,形状为 (batch_size, target_sequence_length)可选) — 词汇表中解码器输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是解码器输入 ID?

    LONGT5 使用 pad_token_id 作为生成 decoder_input_ids 的起始标记。如果使用 past_key_values,则可以选择只输入最后一个 decoder_input_ids(参见 past_key_values)。

    要了解更多关于如何为预训练准备 decoder_input_ids 的信息,请参阅 LONGT5 训练

  • decoder_attention_mask (torch.BoolTensor,形状为 (batch_size, target_sequence_length)可选) — 默认行为:生成一个忽略 decoder_input_ids 中填充标记的张量。默认情况下也会使用因果掩码。
  • head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值选自 [0, 1]

    • 1 表示头部未被掩码
    • 0 表示头部被掩码
  • decoder_head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 用于使解码器中自注意力模块中选定的头无效的掩码。掩码值选自 [0, 1]

    • 1 表示头部未被掩码
    • 0 表示头部被掩码
  • cross_attn_head_mask (torch.Tensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 用于使解码器中交叉注意力模块中选定的头无效的掩码。掩码值选自 [0, 1]

    • 1 表示头部未被掩码
    • 0 表示头部被掩码
  • encoder_outputs (tuple[tuple[torch.FloatTensor]]可选) — 元组包含 (last_hidden_state, 可选: hidden_states, 可选: attentions) last_hidden_state(形状为 (batch_size, sequence_length, hidden_size)可选)是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。
  • past_key_values (tuple[tuple[torch.FloatTensor]]可选) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在先前解码阶段返回的 past_key_values,当 use_cache=Trueconfig.use_cache=True 时。

    允许两种格式:

    • Cache 实例,请参阅我们的 kv 缓存指南
    • 长度为 config.n_layerstuple(torch.FloatTensor) 元组,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也称为传统缓存格式。

    模型将输出与输入相同的缓存格式。如果未传递 past_key_values,则将返回传统缓存格式。

    如果使用 past_key_values,用户可以选择只输入形状为 (batch_size, 1) 的最后一个 input_ids(那些没有为其提供过去键值状态的 ID),而不是形状为 (batch_size, sequence_length) 的所有 input_ids

  • inputs_embeds (torch.Tensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递 input_ids。如果你想比模型内部的嵌入查找矩阵更好地控制如何将 input_ids 索引转换为相关向量,这将非常有用。
  • decoder_inputs_embeds (torch.Tensor,形状为 (batch_size, target_sequence_length, hidden_size)可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递 decoder_input_ids。如果使用 past_key_values,可以选择只输入最后一个 decoder_inputs_embeds(参见 past_key_values)。如果你想比模型内部的嵌入查找矩阵更好地控制如何将 decoder_input_ids 索引转换为相关向量,这将非常有用。

    如果 decoder_input_idsdecoder_inputs_embeds 都未设置,decoder_inputs_embeds 将取 inputs_embeds 的值。

  • use_cache (bool可选) — 如果设置为 True,将返回 past_key_values 键值状态,可用于加速解码(参见 past_key_values)。
  • output_attentions (bool可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
  • cache_position (torch.LongTensor,形状为 (sequence_length)可选) — 描绘输入序列标记在序列中位置的索引。与 position_ids 不同,此张量不受填充影响。它用于在正确的位置更新缓存并推断完整的序列长度。

返回

transformers.modeling_outputs.Seq2SeqModelOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=Falseconfig.return_dict=False),根据配置 (LongT5Config) 和输入包含不同的元素。

  • last_hidden_state (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)) — 模型解码器最后一层输出的隐藏状态序列。

    如果使用了 past_key_values,则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。

  • past_key_values (EncoderDecoderCache可选,当传递 use_cache=Trueconfig.use_cache=True 时返回) — 这是一个 EncoderDecoderCache 实例。更多详情请参阅我们的 kv 缓存指南

    包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

  • decoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元组(一个用于嵌入层的输出(如果模型有嵌入层),每个层一个输出)。

    解码器在每个层输出的隐藏状态,加上可选的初始嵌入输出。

  • decoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每层一个)。

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

  • cross_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每层一个)。

    解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。

  • encoder_last_hidden_state (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 模型编码器最后一层输出的隐藏状态序列。

  • encoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元组(一个用于嵌入层的输出(如果模型有嵌入层),每个层一个输出)。

    编码器在每个层输出的隐藏状态,加上可选的初始嵌入输出。

  • encoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每层一个)。

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

LongT5Model 的 forward 方法覆盖了 __call__ 特殊方法。

虽然前向传播的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理预处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, LongT5Model

>>> tokenizer = AutoTokenizer.from_pretrained("google/long-t5-local-base")
>>> model = LongT5Model.from_pretrained("google/long-t5-local-base")

>>> # Let's try a very long encoder input.
>>> input_ids = tokenizer(
...     100 * "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids  # Batch size 1

>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

>>> # forward pass
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
>>> last_hidden_states = outputs.last_hidden_state

LongT5ForConditionalGeneration

class transformers.LongT5ForConditionalGeneration

< >

( config: LongT5Config )

参数

  • config (LongT5Config) — 包含模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

带有一个 `language modeling` 头的 LONGT5 模型。

该模型继承自 PreTrainedModel。请查看超类文档,了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。

该模型也是 PyTorch torch.nn.Module 的子类。可以像常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None decoder_head_mask: typing.Optional[torch.FloatTensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.Tensor]]] = None past_key_values: typing.Optional[tuple[tuple[torch.Tensor]]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) transformers.modeling_outputs.Seq2SeqLMOutput or tuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。LongT5 是一个带有相对位置嵌入的模型,因此你应该能够在输入的左侧和右侧进行填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

    要了解更多关于如何为预训练准备 input_ids 的信息,请参阅 LONGT5 训练

  • attention_mask (torch.FloatTensor,形状为 (batch_size, sequence_length)可选) — 用于避免在填充标记索引上执行注意力操作的掩码。掩码值选自 [0, 1]

    • 1 表示标记未被掩码
    • 0 表示标记被掩码

    什么是注意力掩码?

  • decoder_input_ids (torch.LongTensor,形状为 (batch_size, target_sequence_length)可选) — 词汇表中解码器输入序列标记的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是解码器输入 ID?

    LONGT5 使用 pad_token_id 作为生成 decoder_input_ids 的起始标记。如果使用 past_key_values,则可以选择只输入最后一个 decoder_input_ids(参见 past_key_values)。

    要了解更多关于如何为预训练准备 decoder_input_ids 的信息,请参阅 LONGT5 训练

  • decoder_attention_mask (torch.BoolTensor,形状为 (batch_size, target_sequence_length)可选) — 默认行为:生成一个忽略 decoder_input_ids 中填充标记的张量。默认情况下也会使用因果掩码。
  • head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 用于使自注意力模块中选定的头无效的掩码。掩码值选自 [0, 1]

    • 1 表示头部未被掩码
    • 0 表示头部被掩码
  • decoder_head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 用于使解码器中自注意力模块中选定的头无效的掩码。掩码值选自 [0, 1]

    • 1 表示头部未被掩码
    • 0 表示头部被掩码
  • cross_attn_head_mask (torch.Tensor,形状为 (num_heads,)(num_layers, num_heads)可选) — 用于使解码器中交叉注意力模块中选定的头无效的掩码。掩码值选自 [0, 1]

    • 1 表示头部未被掩码
    • 0 表示头部被掩码
  • encoder_outputs (tuple[tuple[torch.Tensor]]可选) — 元组包含 (last_hidden_state, 可选: hidden_states, 可选: attentions) last_hidden_state(形状为 (batch_size, sequence_length, hidden_size)可选)是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。
  • past_key_values (tuple[tuple[torch.Tensor]]可选) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在先前解码阶段返回的 past_key_values,当 use_cache=Trueconfig.use_cache=True 时。

    允许两种格式:

    • Cache 实例,请参阅我们的 kv 缓存指南
    • 长度为 config.n_layerstuple(torch.FloatTensor) 元组,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量。这也称为传统缓存格式。

    模型将输出与输入相同的缓存格式。如果未传递 past_key_values,则将返回传统缓存格式。

    如果使用 past_key_values,用户可以选择只输入形状为 (batch_size, 1) 的最后一个 input_ids(那些没有为其提供过去键值状态的 ID),而不是形状为 (batch_size, sequence_length) 的所有 input_ids

  • inputs_embeds (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递 input_ids。如果你想比模型内部的嵌入查找矩阵更好地控制如何将 input_ids 索引转换为相关向量,这将非常有用。
  • decoder_inputs_embeds (torch.FloatTensor,形状为 (batch_size, target_sequence_length, hidden_size)可选) — 可选地,你可以选择直接传递嵌入表示,而不是传递 decoder_input_ids。如果使用 past_key_values,可以选择只输入最后一个 decoder_inputs_embeds(参见 past_key_values)。如果你想比模型内部的嵌入查找矩阵更好地控制如何将 decoder_input_ids 索引转换为相关向量,这将非常有用。

    如果 decoder_input_idsdecoder_inputs_embeds 都未设置,decoder_inputs_embeds 将取 inputs_embeds 的值。

  • labels (torch.LongTensor,形状为 (batch_size,)可选) — 用于计算序列分类/回归损失的标签。索引应在 [-100, 0, ..., config.vocab_size - 1] 范围内。所有设置为 -100 的标签都会被忽略(掩码),损失仅针对 [0, ..., config.vocab_size] 范围内的标签计算。
  • use_cache (bool可选) — 如果设置为 True,将返回 past_key_values 键值状态,可用于加速解码(参见 past_key_values)。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多细节请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
  • cache_position (torch.LongTensor,形状为 (sequence_length), 可选) — 描述输入序列词元在序列中位置的索引。与 position_ids 相反,此张量不受填充影响。它用于在正确的位置更新缓存并推断完整的序列长度。

返回

transformers.modeling_outputs.Seq2SeqLMOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqLMOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(LongT5Config)和输入包含不同的元素。

  • loss (torch.FloatTensor,形状为 (1,)可选,当提供 labels 时返回) — 语言建模损失。

  • logits (形状为 (batch_size, sequence_length, config.vocab_size)torch.FloatTensor) — 语言建模头部的预测分数(SoftMax 之前的每个词汇标记的分数)。

  • past_key_values (EncoderDecoderCache可选,当传递 use_cache=Trueconfig.use_cache=True 时返回) — 这是一个 EncoderDecoderCache 实例。更多详情请参阅我们的 kv 缓存指南

    包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

  • decoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元组(一个用于嵌入层的输出(如果模型有嵌入层),每个层一个输出)。

    解码器在每一层输出时的隐藏状态以及初始嵌入输出。

  • decoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每层一个)。

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

  • cross_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每层一个)。

    解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。

  • encoder_last_hidden_state (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size)可选) — 模型编码器最后一层输出的隐藏状态序列。

  • encoder_hidden_states (tuple(torch.FloatTensor)可选,当传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size)torch.FloatTensor 元组(一个用于嵌入层的输出(如果模型有嵌入层),每个层一个输出)。

    编码器在每一层输出时的隐藏状态以及初始嵌入输出。

  • encoder_attentions (tuple(torch.FloatTensor)可选,当传递 output_attentions=Trueconfig.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length)torch.FloatTensor 元组(每层一个)。

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

LongT5ForConditionalGeneration 的 forward 方法覆盖了 __call__ 特殊方法。

虽然前向传播的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理预处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, LongT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")
>>> model = LongT5ForConditionalGeneration.from_pretrained(
...     "Stancld/longt5-tglobal-large-16384-pubmed-3k_steps"
... )

>>> # Let's try a very long input.
>>> inputs = tokenizer(100 * "studies have shown that owning a dog is good for you ", return_tensors="pt")
>>> input_ids = inputs.input_ids

>>> outputs = model.generate(input_ids)
>>> print(tokenizer.decode(outputs[0], skip_special_tokens=True))
abstractthe aim of this article is to provide an overview of the literature on the role of dog

LongT5EncoderModel

class transformers.LongT5EncoderModel

< >

( config: LongT5Config )

参数

  • config (LongT5Config) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。请查看 from_pretrained() 方法来加载模型权重。

无任何特定头部的 LongT5 裸模型,输出原始隐藏状态。

该模型继承自 PreTrainedModel。请查看超类文档,了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。

该模型也是 PyTorch torch.nn.Module 的子类。可以像常规 PyTorch 模块一样使用它,并参考 PyTorch 文档了解所有与通用用法和行为相关的事项。

forward

< >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) transformers.modeling_outputs.BaseModelOutputtuple(torch.FloatTensor)

参数

  • input_ids (torch.LongTensor,形状为 (batch_size, sequence_length)) — 词汇表中输入序列词元的索引。LongT5 是一个带有相对位置嵌入的模型,因此你应该能够对输入的左右两边进行填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    要了解如何为预训练准备 input_ids,请参阅 LONGT5 训练

  • attention_mask (torch.FloatTensor,形状为 (batch_size, sequence_length), 可选) — 用于避免对填充词元索引执行注意力的掩码。掩码值选自 [0, 1]

    • 1 表示词元未被遮盖
    • 0 表示词元被遮盖

    什么是注意力掩码?

  • head_mask (torch.FloatTensor,形状为 (num_heads,)(num_layers, num_heads), 可选) — 用于置零自注意力模块中选定头的掩码。掩码值选自 [0, 1]

    • 1 表示头未被遮盖
    • 0 表示头被遮盖
  • inputs_embeds (torch.FloatTensor,形状为 (batch_size, sequence_length, hidden_size), 可选) — 可选地,你可以不传递 input_ids,而是直接传递嵌入表示。如果你想比模型内部的嵌入查找矩阵更精细地控制如何将 input_ids 索引转换为关联向量,这会很有用。
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多细节请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。

返回

transformers.modeling_outputs.BaseModelOutputtuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(LongT5Config)和输入包含不同的元素。

  • last_hidden_state (torch.FloatTensor, 形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。

  • hidden_states (tuple(torch.FloatTensor), 可选, 在传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — torch.FloatTensor 的元组(如果模型有嵌入层,则第一个是嵌入层的输出,然后是每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    模型在每个层输出的隐藏状态以及可选的初始嵌入输出。

  • attentions (tuple(torch.FloatTensor), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — torch.FloatTensor 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

LongT5EncoderModel 的 forward 方法覆盖了 __call__ 特殊方法。

虽然前向传播的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理预处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, LongT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("google/long-t5-local-base")
>>> model = LongT5EncoderModel.from_pretrained("google/long-t5-local-base")
>>> input_ids = tokenizer(
...     100 * "Studies have been shown that owning a dog is good for you ", return_tensors="pt"
... ).input_ids  # Batch size 1
>>> outputs = model(input_ids=input_ids)
>>> last_hidden_states = outputs.last_hidden_state
JAX
隐藏 JAX 内容

FlaxLongT5Model

class transformers.FlaxLongT5Model

< >

( config: LongT5Config input_shape: tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

__call__

< >

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None decoder_input_ids: Array = None decoder_attention_mask: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutputtuple(torch.FloatTensor)

参数

  • input_ids (jnp.ndarray,形状为 (batch_size, sequence_length)) — 词汇表中输入序列词元的索引。LongT5 是一个带有相对位置嵌入的模型,因此你应该能够对输入的左右两边进行填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

    要了解如何为预训练准备 input_ids,请参阅 LONGT5 训练

  • attention_mask (jnp.ndarray,形状为 (batch_size, sequence_length), 可选) — 用于避免对填充词元索引执行注意力的掩码。掩码值选自 [0, 1]

    • 1 表示词元未被遮盖
    • 0 表示词元被遮盖

    什么是注意力掩码?

  • decoder_input_ids (jnp.ndarray,形状为 (batch_size, target_sequence_length), 可选) — 解码器输入序列词元在词汇表中的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是解码器输入 ID?

    LONGT5 使用 pad_token_id 作为生成 decoder_input_ids 的起始词元。如果使用 past_key_values,可以选择只输入最后一个 decoder_input_ids(请参阅 past_key_values)。

    要了解如何为预训练准备 decoder_input_ids,请参阅 LONGT5 训练

  • decoder_attention_mask (jnp.ndarray,形状为 (batch_size, target_sequence_length), 可选) — 默认行为:生成一个忽略 decoder_input_ids 中填充词元的张量。默认情况下也会使用因果掩码。
  • encoder_outputs (tuple(tuple(jnp.ndarray), 可选) — 元组包含(last_hidden_state, 可选: hidden_states, 可选: attentions)。形状为 (batch_size, sequence_length, hidden_size)last_hidden_state 是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。
  • past_key_values (tuple(tuple(jnp.ndarray)),长度为 config.n_layers,每个元组包含 4 个形状为 (batch_size, num_heads, sequence_length - 1, embed_size_per_head) 的张量) — 包含预先计算的注意力块的键和值隐藏状态。可用于加速解码。

    如果使用 past_key_values,用户可以选择只输入最后一个 decoder_input_ids(那些没有为其提供过去键值状态的词元),其形状为 (batch_size, 1),而不是所有形状为 (batch_size, sequence_length)decoder_input_ids

返回

transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutputtuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(LongT5Config)和输入包含不同的元素。

  • logits (形状为 (batch_size, sequence_length, config.vocab_size)jnp.ndarray) — 语言建模头的预测分数(SoftMax 之前每个词汇 token 的分数)。

  • past_key_values (tuple(tuple(jnp.ndarray)), 可选, 在传递 use_cache=Trueconfig.use_cache=True 时返回) — tuple(jnp.ndarray) 的元组,长度为 config.n_layers,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量和 2 个额外的形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的张量。

    包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

  • decoder_hidden_states (tuple(jnp.ndarray), 可选, 在传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — jnp.ndarray 的元组(一个是嵌入层的输出 + 每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    解码器在每一层输出时的隐藏状态以及初始嵌入输出。

  • decoder_attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

  • cross_attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。

  • encoder_last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)jnp.ndarray可选) — 模型编码器最后一层输出的隐藏状态序列。

  • encoder_hidden_states (tuple(jnp.ndarray), 可选, 在传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — jnp.ndarray 的元组(一个是嵌入层的输出 + 每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    编码器在每一层输出时的隐藏状态以及初始嵌入输出。

  • encoder_attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

FlaxLongT5PreTrainedModel 的 forward 方法覆盖了 __call__ 特殊方法。

虽然前向传播的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理预处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5Model

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5Model.from_pretrained("google/long-t5-local-base")

>>> input_ids = tokenizer(
...     "Studies have been shown that owning a dog is good for you", return_tensors="np"
... ).input_ids
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="np").input_ids

>>> # forward pass
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
>>> last_hidden_states = outputs.last_hidden_state

编码

< >

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxBaseModelOutputtuple(torch.FloatTensor)

参数

  • input_ids (jnp.ndarray,形状为 (batch_size, sequence_length)) — 词汇表中输入序列词元的索引。LongT5 是一个带有相对位置嵌入的模型,因此你应该能够对输入的左右两边进行填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    要了解如何为预训练准备 input_ids,请参阅 LONGT5 训练

  • attention_mask (jnp.ndarray,形状为 (batch_size, sequence_length), 可选) — 用于避免对填充词元索引执行注意力的掩码。掩码值选自 [0, 1]

    • 1 表示词元未被遮盖
    • 0 表示词元被遮盖

    什么是注意力掩码?

  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多细节请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。

返回

transformers.modeling_flax_outputs.FlaxBaseModelOutputtuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>)和输入包含不同的元素。

  • last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)jnp.ndarray) — 模型最后一层输出的隐藏状态序列。

  • hidden_states (tuple(jnp.ndarray), 可选, 在传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — jnp.ndarray 的元组(一个是嵌入层的输出 + 每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    模型在每个层输出的隐藏状态加上初始嵌入输出。

  • attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)

decode

< >

( decoder_input_ids encoder_outputs encoder_attention_mask: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None past_key_values: typing.Optional[dict] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentionstuple(torch.FloatTensor)

参数

  • decoder_input_ids (jnp.ndarray,形状为 (batch_size, target_sequence_length)) — 解码器输入序列词元在词汇表中的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是解码器输入 ID?

    对于训练,应提供 decoder_input_ids

  • encoder_outputs (tuple(tuple(jnp.ndarray)) — 元组包含(last_hidden_state, 可选: hidden_states, 可选: attentions)。形状为 (batch_size, sequence_length, hidden_size)last_hidden_state 是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。
  • encoder_attention_mask (jnp.ndarray,形状为 (batch_size, sequence_length), 可选) — 用于避免对填充词元索引执行注意力的掩码。掩码值选自 [0, 1]

    • 1 表示词元未被遮盖
    • 0 表示词元被遮盖

    什么是注意力掩码?

  • decoder_attention_mask (jnp.ndarray,形状为 (batch_size, target_sequence_length), 可选) — 默认行为:生成一个忽略 decoder_input_ids 中填充词元的张量。默认情况下也会使用因果掩码。

    如果你想改变填充行为,应根据你的需求进行修改。有关默认策略的更多信息,请参阅论文中的图 1。

  • past_key_values (Dict[str, np.ndarray], 可选, 由 init_cache 返回或在传递先前的 past_key_values 时返回) — 预先计算的隐藏状态(注意力块中的键和值)的字典,可用于快速自回归解码。预先计算的键和值隐藏状态的形状为 [batch_size, max_length]
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多细节请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多细节请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。

返回

transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentionstuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>)和输入包含不同的元素。

  • last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)jnp.ndarray) — 模型最后一层输出的隐藏状态序列。

    如果使用了 past_key_values,则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。

  • past_key_values (tuple(tuple(jnp.ndarray)), 可选, 在传递 use_cache=Trueconfig.use_cache=True 时返回) — tuple(jnp.ndarray) 的元组,长度为 config.n_layers,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量,如果 config.is_encoder_decoder=True,则还有 2 个额外的形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的张量。

    包含预先计算的隐藏状态(自注意力块中的键和值,如果 config.is_encoder_decoder=True,则还包含交叉注意力块中的键和值),可用于(请参阅 past_key_values 输入)加速序列解码。

  • hidden_states (tuple(jnp.ndarray), 可选, 在传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — jnp.ndarray 的元组(一个是嵌入层的输出 + 每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    模型在每个层输出的隐藏状态加上初始嵌入输出。

  • attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

  • cross_attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.add_cross_attention=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration
>>> import jax.numpy as jnp

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)

>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id

>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> logits = outputs.logits

FlaxLongT5ForConditionalGeneration

class transformers.FlaxLongT5ForConditionalGeneration

< >

( config: LongT5Config input_shape: tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )

__call__

< >

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None decoder_input_ids: Array = None decoder_attention_mask: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutputtuple(torch.FloatTensor)

参数

  • input_ids (jnp.ndarray,形状为 (batch_size, sequence_length)) — 词汇表中输入序列词元的索引。LongT5 是一个带有相对位置嵌入的模型,因此你应该能够对输入的左右两边进行填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是输入 ID?

    要了解如何为预训练准备 input_ids,请参阅 LONGT5 训练

  • attention_mask (jnp.ndarray,形状为 (batch_size, sequence_length), 可选) — 用于避免对填充词元索引执行注意力的掩码。掩码值选自 [0, 1]

    • 1 表示词元未被遮盖
    • 0 表示词元被遮盖

    什么是注意力掩码?

  • decoder_input_ids (jnp.ndarray,形状为 (batch_size, target_sequence_length), 可选) — 解码器输入序列词元在词汇表中的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是解码器输入 ID?

    LONGT5 使用 pad_token_id 作为生成 decoder_input_ids 的起始词元。如果使用 past_key_values,可以选择只输入最后一个 decoder_input_ids(请参阅 past_key_values)。

    要了解如何为预训练准备 decoder_input_ids,请参阅 LONGT5 训练

  • decoder_attention_mask (jnp.ndarray,形状为 (batch_size, target_sequence_length), 可选) — 默认行为:生成一个忽略 decoder_input_ids 中填充词元的张量。默认情况下也会使用因果掩码。
  • encoder_outputs (tuple(tuple(jnp.ndarray), 可选) — 元组包含 (last_hidden_state, 可选: hidden_states, 可选: attentions)。last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size),是编码器最后一层输出的一系列隐藏状态。用于解码器的交叉注意力机制。
  • past_key_values (tuple(tuple(jnp.ndarray)),长度为 config.n_layers,其中每个元组包含 4 个形状为 (batch_size, num_heads, sequence_length - 1, embed_size_per_head) 的张量) — 包含注意力块的预计算键(key)和值(value)隐藏状态。可用于加速解码。

    如果使用 past_key_values,用户可以选择只输入最后一个 decoder_input_ids(即那些没有为其提供过去键值状态的 decoder_input_ids),其形状为 (batch_size, 1),而不是输入所有形状为 (batch_size, sequence_length)decoder_input_ids

返回

transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutputtuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(LongT5Config)和输入包含不同的元素。

  • logits (形状为 (batch_size, sequence_length, config.vocab_size)jnp.ndarray) — 语言建模头的预测分数(SoftMax 之前每个词汇 token 的分数)。

  • past_key_values (tuple(tuple(jnp.ndarray)), 可选, 在传递 use_cache=Trueconfig.use_cache=True 时返回) — tuple(jnp.ndarray) 的元组,长度为 config.n_layers,每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量和 2 个额外的形状为 (batch_size, num_heads, encoder_sequence_length, embed_size_per_head) 的张量。

    包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

  • decoder_hidden_states (tuple(jnp.ndarray), 可选, 在传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — jnp.ndarray 的元组(一个是嵌入层的输出 + 每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    解码器在每一层输出时的隐藏状态以及初始嵌入输出。

  • decoder_attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

  • cross_attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。

  • encoder_last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)jnp.ndarray可选) — 模型编码器最后一层输出的隐藏状态序列。

  • encoder_hidden_states (tuple(jnp.ndarray), 可选, 在传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — jnp.ndarray 的元组(一个是嵌入层的输出 + 每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    编码器在每一层输出时的隐藏状态以及初始嵌入输出。

  • encoder_attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。

FlaxLongT5PreTrainedModel 的 forward 方法覆盖了 __call__ 特殊方法。

虽然前向传播的逻辑需要在此函数内定义,但之后应该调用 `Module` 实例而不是此函数,因为前者会处理预处理和后处理步骤,而后者会默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")

>>> ARTICLE_TO_SUMMARIZE = "summarize: My friends are cool but they eat too many carbs."
>>> inputs = tokenizer([ARTICLE_TO_SUMMARIZE], return_tensors="np")

>>> # Generate Summary
>>> summary_ids = model.generate(inputs["input_ids"]).sequences
>>> print(tokenizer.decode(summary_ids[0], skip_special_tokens=True, clean_up_tokenization_spaces=False))

编码

< >

( input_ids: Array attention_mask: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxBaseModelOutputtuple(torch.FloatTensor)

参数

  • input_ids (jnp.ndarray,形状为 (batch_size, sequence_length)) — 词汇表中输入序列词元的索引。LongT5 是一个带有相对位置嵌入的模型,因此您应该能够在输入的左侧和右侧进行填充。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    要了解更多关于如何为预训练准备 input_ids 的信息,请参阅 LONGT5 训练

  • attention_mask (jnp.ndarray,形状为 (batch_size, sequence_length)可选) — 用于避免对填充词元索引执行注意力的掩码。掩码值选自 [0, 1]

    • 1 表示未被屏蔽的词元,
    • 0 表示被屏蔽的词元。

    什么是注意力掩码?

  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。

返回

transformers.modeling_flax_outputs.FlaxBaseModelOutputtuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>)和输入包含不同的元素。

  • last_hidden_state (形状为 (batch_size, sequence_length, hidden_size)jnp.ndarray) — 模型最后一层输出的隐藏状态序列。

  • hidden_states (tuple(jnp.ndarray), 可选, 在传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — jnp.ndarray 的元组(一个是嵌入层的输出 + 每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    模型在每个层输出的隐藏状态加上初始嵌入输出。

  • attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")

>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)

decode

< >

( decoder_input_ids encoder_outputs encoder_attention_mask: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None past_key_values: typing.Optional[dict] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentionstuple(torch.FloatTensor)

参数

  • decoder_input_ids (jnp.ndarray,形状为 (batch_size, target_sequence_length)) — 词汇表中解码器输入序列词元的索引。

    可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()PreTrainedTokenizer.call()

    什么是解码器输入 ID?

    对于训练,应提供 decoder_input_ids

  • encoder_outputs (tuple(tuple(jnp.ndarray)) — 元组包含 (last_hidden_state, 可选: hidden_states, 可选: attentions)。last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size)可选) 是编码器最后一层输出的一系列隐藏状态。用于解码器的交叉注意力机制。
  • encoder_attention_mask (jnp.ndarray,形状为 (batch_size, sequence_length)可选) — 用于避免对填充词元索引执行注意力的掩码。掩码值选自 [0, 1]

    • 1 表示未被屏蔽的词元,
    • 0 表示被屏蔽的词元。

    什么是注意力掩码?

  • decoder_attention_mask (jnp.ndarray,形状为 (batch_size, target_sequence_length)可选) — 默认行为:生成一个忽略 decoder_input_ids 中填充词元的张量。默认情况下也会使用因果掩码。

    如果您想更改填充行为,应根据您的需要进行修改。有关默认策略的更多信息,请参阅论文中的图 1。

  • past_key_values (Dict[str, np.ndarray], 可选,由 init_cache 返回或在传递先前的 past_key_values 时返回) — 预计算的隐藏状态(注意力块中的键和值)字典,可用于快速自回归解码。预计算的键和值隐藏状态的形状为 [batch_size, max_length]
  • output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的 attentions
  • output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的 hidden_states
  • return_dict (bool, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。

返回

transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentionstuple(torch.FloatTensor)

一个 transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或一个 torch.FloatTensor 的元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>)和输入,包含各种元素。

  • logits (形状为 (batch_size, sequence_length, config.vocab_size)jnp.ndarray) — 语言建模头的预测分数(SoftMax 之前每个词汇 token 的分数)。

  • hidden_states (tuple(jnp.ndarray), 可选, 在传递 output_hidden_states=Trueconfig.output_hidden_states=True 时返回) — jnp.ndarray 的元组(一个是嵌入层的输出 + 每一层的输出),形状为 (batch_size, sequence_length, hidden_size)

    模型在每个层输出的隐藏状态加上初始嵌入输出。

  • attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。

  • cross_attentions (tuple(jnp.ndarray), 可选, 在传递 output_attentions=Trueconfig.output_attentions=True 时返回) — jnp.ndarray 的元组(每一层一个),形状为 (batch_size, num_heads, sequence_length, sequence_length)

    注意力 softmax 后的交叉注意力权重,用于计算交叉注意力头中的加权平均。

  • past_key_values (tuple(tuple(jnp.ndarray)), 可选,在传递 use_cache=Trueconfig.use_cache=True 时返回) — 长度为 config.n_layersjnp.ndarray 元组的元组,其中每个元组包含自注意力和交叉注意力层的缓存键、值状态(如果模型在编码器-解码器设置中使用)。仅当 config.is_decoder = True 时相关。

    包含预先计算的隐藏状态(注意力块中的键和值),可用于(参见 past_key_values 输入)加速顺序解码。

示例

>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration
>>> import jax.numpy as jnp

>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")

>>> text = "summarize: My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)

>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id

>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> logits = outputs.logits
< > 在 GitHub 上更新