LongT5
概述
LongT5 模型在 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中由 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung 和 Yinfei Yang 提出。它是一种在文本到文本去噪生成设置中预训练的编码器-解码器 Transformer。LongT5 模型是 T5 模型的扩展,它可以采用两种不同的高效注意力机制之一:(1) 局部注意力,或 (2) 瞬态全局注意力。
论文中的摘要如下
最近的研究表明,(1) 增加输入长度或 (2) 增加模型大小都可以提高基于 Transformer 的神经模型的性能。在本文中,我们介绍了一种名为 LongT5 的新模型,我们用它来探索同时扩展输入长度和模型大小的效果。具体来说,我们整合了长输入 Transformer (ETC) 中的注意力思想,并将摘要预训练 (PEGASUS) 中的预训练策略应用于可扩展的 T5 架构。结果是一种我们称为 *瞬态全局* (TGlobal) 的新注意力机制,它模仿 ETC 的局部/全局注意力机制,但不需要额外的侧输入。我们能够在几个摘要任务上取得最先进的结果,并在问答任务上优于原始的 T5 模型。
该模型由 stancld 贡献。原始代码可以在 此处 找到。
使用技巧
- LongT5ForConditionalGeneration 是 T5ForConditionalGeneration 的扩展,用高效的 *局部* 注意力或 *瞬态全局* ( *tglobal* ) 注意力取代传统的编码器 *自注意力* 层。
- 与 T5 模型不同,LongT5 不使用任务前缀。此外,它使用不同的预训练目标,灵感来自 PegasusForConditionalGeneration 的预训练。
- LongT5 模型旨在有效且出色地处理长距离 *序列到序列* 任务,其中输入序列超过常用的 512 个标记。它能够处理长度高达 16,384 个标记的输入序列。
- 对于 *局部注意力*,稀疏滑动窗口局部注意力操作允许给定标记仅关注它左侧和右侧的
r
个标记(默认情况下r=127
)。*局部注意力* 不会给模型引入任何新参数。该机制的复杂度与输入序列长度l
成线性关系:O(l*r)
。 - *瞬态全局注意力* 是 *局部注意力* 的扩展。此外,它还允许每个输入标记与层中的所有其他标记交互。这是通过将输入序列拆分为固定长度
k
的块(默认情况下k=16
)来实现的。然后,通过对块中每个标记的嵌入进行求和和归一化,获得该块的全局标记。因此,注意力允许每个标记关注附近的标记(如局部注意力),以及所有全局标记(如标准全局注意力的情况)(*瞬态* 代表全局标记是在每次注意力操作中动态构建的事实)。因此,*TGlobal* 注意力引入了一些新参数——全局相对位置偏差和全局标记嵌入的层归一化。该机制的复杂度为O(l(r + l/k))
。 - 以下示例展示了如何在 pubmed 数据集 上评估经过微调的 LongT5 模型。
>>> import evaluate
>>> from datasets import load_dataset
>>> from transformers import AutoTokenizer, LongT5ForConditionalGeneration
>>> dataset = load_dataset("scientific_papers", "pubmed", split="validation")
>>> model = (
... LongT5ForConditionalGeneration.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")
... .to("cuda")
... .half()
... )
>>> tokenizer = AutoTokenizer.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")
>>> def generate_answers(batch):
... inputs_dict = tokenizer(
... batch["article"], max_length=16384, padding="max_length", truncation=True, return_tensors="pt"
... )
... input_ids = inputs_dict.input_ids.to("cuda")
... attention_mask = inputs_dict.attention_mask.to("cuda")
... output_ids = model.generate(input_ids, attention_mask=attention_mask, max_length=512, num_beams=2)
... batch["predicted_abstract"] = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
... return batch
>>> result = dataset.map(generate_answer, batched=True, batch_size=2)
>>> rouge = evaluate.load("rouge")
>>> rouge.compute(predictions=result["predicted_abstract"], references=result["abstract"])
资源
LongT5Config
class transformers.LongT5Config
< source >( vocab_size = 32128 d_model = 512 d_kv = 64 d_ff = 2048 num_layers = 6 num_decoder_layers = None num_heads = 8 local_radius = 127 global_block_size = 16 relative_attention_num_buckets = 32 relative_attention_max_distance = 128 dropout_rate = 0.1 layer_norm_epsilon = 1e-06 initializer_factor = 1.0 feed_forward_proj = 'relu' is_encoder_decoder = True encoder_attention_type = 'local' use_cache = True pad_token_id = 0 eos_token_id = 1 **kwargs )
参数
- 词汇量 (
int
, 可选, 默认值为 32128) — LongT5 模型的词汇量。定义了调用 LongT5Model 时传递的inputs_ids
可以表示的不同词元的数量。 - 模型维度 (
int
, 可选, 默认值为 512) — 编码器层和池化层的维度。 - 键、查询、值投影维度 (
int
, 可选, 默认值为 64) — 每个注意力头的键、查询、值投影的维度。d_kv
必须等于d_model // num_heads
。 - 前馈层维度 (
int
, 可选, 默认值为 2048) — 每个LongT5Block
中的中间前馈层的维度。 - 编码器层数 (
int
, 可选, 默认值为 6) — Transformer 编码器中的隐藏层数。 - 解码器层数 (
int
, 可选) — Transformer 解码器中的隐藏层数。如果没有设置,将使用与num_layers
相同的值。 - 注意力头数 (
int
, 可选, 默认值为 8) — Transformer 编码器中每个注意力层的注意力头数。 - 局部注意力半径 (
int
, 可选, 默认值为 127) — 在局部注意力机制中,每个词元左右两侧的词元数量,用于局部自注意力。 - 全局块大小 (
int
, 可选, 默认值为 16) — 输入序列被分割成块的长度,用于全局词元表示。仅在encoder_attention_type = "transient-global"
时使用。 - 相对注意力桶数 (
int
, 可选, 默认值为 32) — 每个注意力层使用的桶数。 - layer_norm_eps (
float
, 可选, 默认为 1e-6) — 层归一化层使用的epsilon。 - initializer_factor (
float
, 可选, 默认为 1) — 初始化所有权重矩阵的因子(应保持为 1,在内部用于初始化测试)。 - feed_forward_proj (
string
, 可选, 默认为"relu"
) — 要使用的前馈层类型。应为"relu"
或"gated-gelu"
之一。LongT5v1.1 使用"gated-gelu"
前馈投影。原始 LongT5 实现使用"gated-gelu"
。 - encoder_attention_type (
string
, 可选, 默认为"local"
) — 要使用的编码器注意力类型。应为"local"
或"transient-global"
之一,它们受 LongT5 实现支持。 - use_cache (
bool
, 可选, 默认为True
) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。
这是一个配置类,用于存储 LongT5Model 或 FlaxLongT5Model 的配置。它用于根据指定的参数实例化 LongT5 模型,定义模型架构。使用默认值实例化配置将产生类似于 LongT5 google/long-t5-local-base 架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以了解更多信息。
LongT5Model
class transformers.LongT5Model
< 源代码 >( config: LongT5Config )
参数
- config (LongT5Config) — 模型配置类,包含模型的所有参数。使用配置文件进行初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
不带头的基本 LONGT5 模型 Transformer,输出原始隐藏状态。
LongT5 模型在 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中由 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung 和 Yinfei Yang 提出。它是一种在文本到文本去噪生成设置中预训练的编码器-解码器 Transformer。LongT5 模型是 T5 模型的扩展,它可以采用两种不同的高效注意力机制之一:(1) 局部注意力,或 (2) 瞬态全局注意力。
此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入的大小、修剪头等)。
此模型也是一个 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般用法和行为的所有事项。
forward
< source > ( input_ids: Optional = None attention_mask: Optional = None decoder_input_ids: Optional = None decoder_attention_mask: Optional = None head_mask: Optional = None decoder_head_mask: Optional = None cross_attn_head_mask: Optional = None encoder_outputs: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None decoder_inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.Seq2SeqModelOutput or tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。LongT5 是一个具有相对位置嵌入的模型,因此你应该能够在左右两侧填充输入。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
要详细了解如何为预训练准备
input_ids
,请查看 LONGT5 训练。 - attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
,可选) — 掩码以避免对填充标记索引执行注意力。在[0, 1]
中选择掩码值:- 1 表示 未被掩码 的标记,
- 0 表示 被掩码 的标记。
- decoder_input_ids (
torch.LongTensor
形状为(batch_size, target_sequence_length)
,可选) — 词汇表中解码器输入序列标记的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
LONGT5 使用
pad_token_id
作为decoder_input_ids
生成 的起始标记。如果使用past_key_values
,则可以选择仅输入最后一个decoder_input_ids
(请参阅past_key_values
)。要详细了解如何为预训练准备
decoder_input_ids
,请查看 LONGT5 训练。 - decoder_attention_mask (
torch.BoolTensor
形状为(batch_size, target_sequence_length)
,可选) — 默认行为:生成一个忽略decoder_input_ids
中填充标记的张量。因果掩码也将默认使用。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 掩码以使编码器中自注意力模块的选定头部无效。在[0, 1]
中选择掩码值:- 1 表示 未被掩码 的头部,
- 0 表示 被掩码 的头部。
- decoder_head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 掩码以使解码器中自注意力模块的选定头部无效。在[0, 1]
中选择掩码值:- 1 表示 未被掩码 的头部,
- 0 表示 被掩码 的头部。
- cross_attn_head_mask (
torch.Tensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于使解码器中交叉注意力模块的选定头无效化的掩码。掩码值在[0, 1]
中选择:- 1 表示头未被掩码,
- 0 表示头被掩码。
- encoder_outputs (
tuple(tuple(torch.FloatTensor)
,可选) — 元组包含 (last_hidden_state
,可选
: hidden_states,可选
: attentions) 形状为(batch_size, sequence_length, hidden_size)
的last_hidden_state
是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。 - past_key_values (
tuple(tuple(torch.FloatTensor))
长度为config.n_layers
,每个元组包含 4 个形状为(batch_size, num_heads, sequence_length - 1, embed_size_per_head)
的张量) — 包含预计算的注意力块的关键和值的隐藏状态。可用于加速解码。如果使用了
past_key_values
,用户可以选择只输入形状为(batch_size, 1)
的最后一个decoder_input_ids
(那些没有向该模型提供其过去键值状态的),而不是所有形状为(batch_size, sequence_length)
的decoder_input_ids
。 - inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望对如何将input_ids
索引转换为相关向量(而不是模型的内部嵌入查找矩阵)有更多控制权,这将非常有用。 - decoder_inputs_embeds (
torch.FloatTensor
形状为(batch_size, target_sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递decoder_input_ids
。如果使用了past_key_values
,可以选择只输入最后一个decoder_inputs_embeds
(见past_key_values
)。如果您希望对如何将decoder_input_ids
索引转换为相关向量(而不是模型的内部嵌入查找矩阵)有更多控制权,这将非常有用。如果
decoder_input_ids
和decoder_inputs_embeds
都未设置,则decoder_inputs_embeds
将取inputs_embeds
的值。 - use_cache (
bool
,可选) — 如果设置为True
,则会返回past_key_values
键值状态,可用于加速解码(见past_key_values
)。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是普通元组。
返回值
transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含根据配置 (LongT5Config) 和输入的不同元素。
-
last_hidden_state (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 模型解码器最后一层输出的隐藏状态序列。如果使用了
past_key_values
,则只输出形状为(batch_size, 1, hidden_size)
的序列的最后一个隐藏状态。 -
past_key_values (
tuple(tuple(torch.FloatTensor))
,可选,在传递use_cache=True
或config.use_cache=True
时返回) —tuple(torch.FloatTensor)
的元组,长度为config.n_layers
,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
) 的张量和 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的附加张量。包含预计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(见
past_key_values
输入)加速顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入的输出,如果模型具有嵌入层,加上每个层的输出)形状为(batch_size, sequence_length, hidden_size)
。解码器在每一层输出的隐藏状态,加上可选的初始嵌入输出。
-
decoder_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组 (每一层一个)。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组 (每一层一个)。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。
-
encoder_last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, 可选) — 模型编码器最后一层的输出处的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
元组 (一个用于嵌入的输出,如果模型具有嵌入层,+ 一个用于每一层的输出) ,形状为(batch_size, sequence_length, hidden_size)
。编码器在每一层输出的隐藏状态,加上可选的初始嵌入输出。
-
encoder_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组 (每一层一个)。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
LongT5Model 的前向方法覆盖了 __call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但应该随后调用 Module
实例而不是此函数,因为前者负责运行前处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> from transformers import AutoTokenizer, LongT5Model
>>> tokenizer = AutoTokenizer.from_pretrained("google/long-t5-local-base")
>>> model = LongT5Model.from_pretrained("google/long-t5-local-base")
>>> # Let's try a very long encoder input.
>>> input_ids = tokenizer(
... 100 * "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids # Batch size 1
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids # Batch size 1
>>> # forward pass
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
>>> last_hidden_states = outputs.last_hidden_state
LongT5ForConditionalGeneration
class transformers.LongT5ForConditionalGeneration
< source >( config: LongT5Config )
参数
- config (LongT5Config) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,仅加载配置。查看 from_pretrained() 方法以加载模型权重。
带有 语言建模
头的 LONGT5 模型。
LongT5 模型在 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中由 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung 和 Yinfei Yang 提出。它是一种在文本到文本去噪生成设置中预训练的编码器-解码器 Transformer。LongT5 模型是 T5 模型的扩展,它可以采用两种不同的高效注意力机制之一:(1) 局部注意力,或 (2) 瞬态全局注意力。
此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入的大小、修剪头等)。
此模型也是一个 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般用法和行为的所有事项。
forward
< source > ( input_ids: Optional = None attention_mask: Optional = None decoder_input_ids: Optional = None decoder_attention_mask: Optional = None head_mask: Optional = None decoder_head_mask: Optional = None cross_attn_head_mask: Optional = None encoder_outputs: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None decoder_inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.Seq2SeqLMOutput or tuple(torch.FloatTensor)
参数
- input_ids (形状为
(batch_size, sequence_length)
的torch.LongTensor
) — 输入序列标记在词汇表中的索引。LongT5 是一个具有相对位置嵌入的模型,因此您应该能够在左右两侧填充输入。可以使用 AutoTokenizer 获取索引。查看 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 获取详细信息。
要了解有关如何为预训练准备
input_ids
的更多信息,请查看 LONGT5 训练。 - attention_mask (形状为
(batch_size, sequence_length)
的torch.FloatTensor
, 可选) — 掩码以避免对填充标记索引执行注意力。在[0, 1]
中选择的掩码值:- 1 用于未屏蔽的标记,
- 0 用于屏蔽的标记。
- decoder_input_ids (
torch.LongTensor
形状为(batch_size, target_sequence_length)
, 可选) — 词汇表中解码器输入序列标记的索引。索引可使用 AutoTokenizer 获取。详情请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
LONGT5 使用
pad_token_id
作为decoder_input_ids
生成的起始标记。如果使用past_key_values
,则可以选择仅输入最后一个decoder_input_ids
(参见past_key_values
)。要详细了解如何为预训练准备
decoder_input_ids
,请查看 LONGT5 训练。 - decoder_attention_mask (
torch.BoolTensor
形状为(batch_size, target_sequence_length)
, 可选) — 默认行为:生成一个忽略decoder_input_ids
中填充标记的张量。因果掩码也将默认使用。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 掩码以使编码器中自注意力模块的选定头无效。在[0, 1]
中选择的掩码值:- 1 表示头未被掩盖,
- 0 表示头被掩盖。
- decoder_head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 掩码以使解码器中自注意力模块的选定头无效。在[0, 1]
中选择的掩码值:- 1 表示头未被掩盖,
- 0 表示头被掩盖。
- cross_attn_head_mask (
torch.Tensor
形状为(num_heads,)
或(num_layers, num_heads)
, 可选) — 掩码以使解码器中交叉注意力模块的选定头无效。在[0, 1]
中选择的掩码值:- 1 表示头未被掩盖,
- 0 表示头被掩盖。
- encoder_outputs (
tuple(tuple(torch.FloatTensor)
, 可选) — 元组包含 (last_hidden_state
,可选
: hidden_states,可选
: attentions)last_hidden_state
形状为(batch_size, sequence_length, hidden_size)
是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。 - past_key_values (
tuple(tuple(torch.FloatTensor))
长度为config.n_layers
,每个元组包含 4 个形状为(batch_size, num_heads, sequence_length - 1, embed_size_per_head)
的张量) — 包含注意力块的预先计算的键和值隐藏状态。可用于加速解码。如果使用
past_key_values
,用户可以选择仅输入最后一个decoder_input_ids
(那些没有将其过去的键值状态提供给此模型的)形状为(batch_size, 1)
,而不是所有decoder_input_ids
形状为(batch_size, sequence_length)
。 - inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望比模型的内部嵌入查找矩阵更全面地控制如何将input_ids
索引转换为关联向量,这将非常有用。 - decoder_inputs_embeds (
torch.FloatTensor
形状为(batch_size, target_sequence_length, hidden_size)
, 可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递decoder_input_ids
。如果使用past_key_values
,则可以选择仅输入最后一个decoder_inputs_embeds
(参见past_key_values
)。如果您希望比模型的内部嵌入查找矩阵更全面地控制如何将decoder_input_ids
索引转换为关联向量,这将非常有用。如果
decoder_input_ids
和decoder_inputs_embeds
都未设置,则decoder_inputs_embeds
将采用inputs_embeds
的值。 - use_cache (
bool
, 可选) — 如果设置为True
,则返回past_key_values
键值状态,可用于加快解码速度(参见past_key_values
)。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个简单的元组。 - labels (
torch.LongTensor
形状为(batch_size,)
, 可选) — 用于计算序列分类/回归损失的标签。索引应在[-100, 0, ..., config.vocab_size - 1]
中。所有设置为-100
的标签都将被忽略(屏蔽),损失仅针对[0, ..., config.vocab_size]
中的标签进行计算。
返回值
transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqLMOutput 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或者当 config.return_dict=False
时),包含取决于配置(LongT5Config)和输入的不同元素。
-
loss (
torch.FloatTensor
形状为(1,)
, 可选, 当提供labels
时返回) — 语言建模损失。 -
logits (
torch.FloatTensor
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前每个词汇表标记的分数)。 -
past_key_values (
tuple(tuple(torch.FloatTensor))
,可选,在传递use_cache=True
或config.use_cache=True
时返回) —tuple(torch.FloatTensor)
的元组,长度为config.n_layers
,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
) 的张量和 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的附加张量。包含预计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(见
past_key_values
输入)加速顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入的输出,如果模型具有嵌入层,加上每个层的输出)形状为(batch_size, sequence_length, hidden_size)
。解码器在每一层输出处的隐藏状态,加上初始嵌入输出。
-
decoder_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组 (每一层一个)。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组 (每一层一个)。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。
-
encoder_last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, 可选) — 模型编码器最后一层的输出处的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
, 可选,当传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
元组 (一个用于嵌入的输出,如果模型具有嵌入层,+ 一个用于每一层的输出) ,形状为(batch_size, sequence_length, hidden_size)
。编码器在每一层输出处的隐藏状态,加上初始嵌入输出。
-
encoder_attentions (
tuple(torch.FloatTensor)
, 可选,当传递output_attentions=True
或config.output_attentions=True
时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组 (每一层一个)。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
LongT5ForConditionalGeneration 的前向方法,覆盖了 __call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但应该随后调用 Module
实例而不是此函数,因为前者负责运行前处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> from transformers import AutoTokenizer, LongT5ForConditionalGeneration
>>> tokenizer = AutoTokenizer.from_pretrained("Stancld/longt5-tglobal-large-16384-pubmed-3k_steps")
>>> model = LongT5ForConditionalGeneration.from_pretrained(
... "Stancld/longt5-tglobal-large-16384-pubmed-3k_steps"
... )
>>> # Let's try a very long input.
>>> inputs = tokenizer(100 * "studies have shown that owning a dog is good for you ", return_tensors="pt")
>>> input_ids = inputs.input_ids
>>> outputs = model.generate(input_ids)
>>> print(tokenizer.decode(outputs[0], skip_special_tokens=True))
abstractthe aim of this article is to provide an overview of the literature on the role of dog
LongT5EncoderModel
class transformers.LongT5EncoderModel
< 源代码 >( config: LongT5Config )
参数
- config (LongT5Config) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
基础 LONGT5 模型转换器,输出编码器的原始隐藏状态,没有任何特定的头部。
LongT5 模型在 LongT5: Efficient Text-To-Text Transformer for Long Sequences 中由 Mandy Guo、Joshua Ainslie、David Uthus、Santiago Ontanon、Jianmo Ni、Yun-Hsuan Sung 和 Yinfei Yang 提出。它是一种在文本到文本去噪生成设置中预训练的编码器-解码器 Transformer。LongT5 模型是 T5 模型的扩展,它可以采用两种不同的高效注意力机制之一:(1) 局部注意力,或 (2) 瞬态全局注意力。
此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入的大小、修剪头等)。
此模型也是一个 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以了解有关一般用法和行为的所有事项。
forward
< 源代码 > ( input_ids: Optional = None attention_mask: Optional = None head_mask: Optional = None inputs_embeds: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。LongT5 是一个具有相对位置嵌入的模型,因此您可以对左右两侧的输入进行填充。可以使用 AutoTokenizer 获取索引。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 获取详细信息。
要详细了解如何为预训练准备
input_ids
,请查看 LONGT5 训练。 - attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
,可选) — 用于避免对填充标记索引执行注意的掩码。在[0, 1]
中选择掩码值:- 1 表示未被掩码的标记,
- 0 表示被掩码的标记。
- head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于使自注意力模块中选定头的无效化的掩码。在[0, 1]
中选择掩码值:- 1 表示未被掩码的头,
- 0 表示被掩码的头。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。如果您希望比模型的内部嵌入查找矩阵对如何将input_ids
索引转换为关联向量有更多控制权,这将很有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参见返回张量中的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关详细信息,请参见返回张量中的hidden_states
。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是普通元组。
返回值
transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.BaseModelOutput 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或 config.return_dict=False
时),包括取决于配置 (LongT5Config) 和输入的各种元素。
-
last_hidden_state (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出处的隐藏状态序列。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,在传递output_hidden_states=True
或config.output_hidden_states=True
时返回) —torch.FloatTensor
元组(一个用于嵌入的输出,如果模型具有嵌入层,加上每个层的输出)形状为(batch_size, sequence_length, hidden_size)
。模型在每个层的输出处的隐藏状态,加上可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,在传递output_attentions=True
或config.output_attentions=True
时返回) —torch.FloatTensor
元组(每个层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
LongT5EncoderModel 正向方法,覆盖了 __call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但应该随后调用 Module
实例而不是此函数,因为前者负责运行前处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> from transformers import AutoTokenizer, LongT5ForConditionalGeneration
>>> tokenizer = AutoTokenizer.from_pretrained("google/long-t5-local-base")
>>> model = LongT5EncoderModel.from_pretrained("google/long-t5-local-base")
>>> input_ids = tokenizer(
... 100 * "Studies have been shown that owning a dog is good for you ", return_tensors="pt"
... ).input_ids # Batch size 1
>>> outputs = model(input_ids=input_ids)
>>> last_hidden_states = outputs.last_hidden_state
FlaxLongT5Model
class transformers.FlaxLongT5Model
< 源代码 >( config: LongT5Config input_shape: Tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )
__call__
< 源代码 > ( input_ids: Array attention_mask: Optional = None decoder_input_ids: Array = None decoder_attention_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None train: bool = False params: dict = None dropout_rng: PRNGKey = None ) → transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或者 tuple(torch.FloatTensor)
参数
- input_ids (
jnp.ndarray
形状为(batch_size, sequence_length)
) — 输入序列词元在词汇表中的索引。LongT5 是一个具有相对位置嵌入的模型,因此你应该能够在左右两侧填充输入。索引可以通过 AutoTokenizer 获得。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
要了解有关如何为预训练准备
input_ids
的更多信息,请查看 LONGT5 训练。 - attention_mask (
jnp.ndarray
形状为(batch_size, sequence_length)
, 可选) — 避免对填充词元索引执行注意力的掩码。在[0, 1]
中选择掩码值:- 1 表示未掩码的词元,
- 0 表示掩码的词元。
- decoder_input_ids (
jnp.ndarray
形状为(batch_size, target_sequence_length)
, 可选) — 解码器输入序列词元在词汇表中的索引。索引可以通过 AutoTokenizer 获得。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
LONGT5 使用
pad_token_id
作为decoder_input_ids
生成时的起始词元。如果使用past_key_values
,则可以选择仅输入最后一个decoder_input_ids
(那些没有向该模型提供过去键值状态的decoder_input_ids
),形状为(batch_size, 1)
,而不是所有decoder_input_ids
,形状为(batch_size, sequence_length)
。要了解有关如何为预训练准备
decoder_input_ids
的更多信息,请查看 LONGT5 训练。 - decoder_attention_mask (
jnp.ndarray
形状为(batch_size, target_sequence_length)
, 可选) — 默认行为:生成一个忽略decoder_input_ids
中填充词元的张量。默认情况下也将使用因果掩码。 - encoder_outputs (
tuple(tuple(jnp.ndarray)
, 可选) — 元组包含 (last_hidden_state
,可选
: hidden_states,可选
: attentions)last_hidden_state
的形状为(batch_size, sequence_length, hidden_size)
是编码器最后一层输出处的隐藏状态序列。用于解码器的交叉注意力。 - past_key_values (
tuple(tuple(jnp.ndarray))
长度为config.n_layers
,每个元组包含 4 个形状为(batch_size, num_heads, sequence_length - 1, embed_size_per_head)
的张量) — 包含预先计算的注意力块的关键和值隐藏状态。可用于加速解码。如果使用
past_key_values
,用户可以选择仅输入形状为(batch_size, 1)
的最后一个decoder_input_ids
(那些没有向该模型提供过去键值状态的decoder_input_ids
),而不是所有形状为(batch_size, sequence_length)
的decoder_input_ids
。
返回值
transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或者 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或者一个 torch.FloatTensor
元组 (如果传递了 return_dict=False
或 config.return_dict=False
) 包含各种元素,具体取决于配置 (LongT5Config) 和输入。
-
logits (
jnp.ndarray
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数 (SoftMax 之前的每个词汇表标记的分数)。 -
past_key_values (
tuple(tuple(jnp.ndarray))
, 可选, 当传递了use_cache=True
或config.use_cache=True
时返回) — 长度为config.n_layers
的tuple(jnp.ndarray)
元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量,以及 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的附加张量。包含预计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(见
past_key_values
输入)加速顺序解码。 -
decoder_hidden_states (
tuple(jnp.ndarray)
, 可选, 当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
元组 (一个用于嵌入的输出,另一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。解码器在每一层输出处的隐藏状态,加上初始嵌入输出。
-
decoder_attentions (
tuple(jnp.ndarray)
, 可选, 当传递了output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(jnp.ndarray)
, 可选, 当传递了output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。
-
encoder_last_hidden_state (
jnp.ndarray
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 模型编码器最后一层输出的隐藏状态序列。 -
encoder_hidden_states (
tuple(jnp.ndarray)
, 可选, 当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
元组 (一个用于嵌入的输出,另一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。编码器在每一层输出处的隐藏状态,加上初始嵌入输出。
-
encoder_attentions (
tuple(jnp.ndarray)
, 可选, 当传递了output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
FlaxLongT5PreTrainedModel
的 forward 方法覆盖了 __call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但应该随后调用 Module
实例而不是此函数,因为前者负责运行前处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> from transformers import AutoTokenizer, FlaxLongT5Model
>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5Model.from_pretrained("google/long-t5-local-base")
>>> input_ids = tokenizer(
... "Studies have been shown that owning a dog is good for you", return_tensors="np"
... ).input_ids
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="np").input_ids
>>> # forward pass
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
>>> last_hidden_states = outputs.last_hidden_state
encode
< source > ( input_ids: Array attention_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None train: bool = False params: dict = None dropout_rng: PRNGKey = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutput or tuple(torch.FloatTensor)
参数
- input_ids (
jnp.ndarray
形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。LongT5 是一个具有相对位置嵌入的模型,因此您应该能够在左右两侧填充输入。可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
要了解有关如何为预训练准备
input_ids
的更多信息,请查看 LONGT5 训练。 - attention_mask (
jnp.ndarray
形状为(batch_size, sequence_length)
, 可选) — 掩码以避免对填充标记索引执行注意力。在[0, 1]
中选择的掩码值:- 1 表示未屏蔽的标记。
- 0 表示屏蔽的标记。
- output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参见返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参见返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通元组。
返回值
transformers.modeling_flax_outputs.FlaxBaseModelOutput or tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或者一个 torch.FloatTensor
元组 (如果传递了 return_dict=False
或 config.return_dict=False
) 包含各种元素,具体取决于配置 (<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>
) 和输入。
-
last_hidden_state (
jnp.ndarray
形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出的隐藏状态序列。 -
hidden_states (
tuple(jnp.ndarray)
, 可选, 当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
元组 (一个用于嵌入的输出,另一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个层输出处的隐藏状态以及初始嵌入输出。
-
attentions (
tuple(jnp.ndarray)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration
>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")
>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)
解码
< 源代码 > ( decoder_input_ids encoder_outputs encoder_attention_mask: Optional = None decoder_attention_mask: Optional = None past_key_values: dict = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None train: bool = False params: dict = None dropout_rng: PRNGKey = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)
参数
- decoder_input_ids (
jnp.ndarray
形状为(batch_size, target_sequence_length)
) — 解码器输入序列标记在词汇表中的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
对于训练,应提供
decoder_input_ids
。 - encoder_outputs (
tuple(tuple(jnp.ndarray)
) — 元组包含 (last_hidden_state
, 可选:hidden_states
, 可选:attentions
)last_hidden_state
形状为(batch_size, sequence_length, hidden_size)
, 可选) 是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。 - encoder_attention_mask (
jnp.ndarray
形状为(batch_size, sequence_length)
, 可选) — 掩码以避免对填充标记索引执行注意力。掩码值在[0, 1]
中选择:- 1 用于 未掩码 的标记,
- 0 用于 掩码 的标记。
- decoder_attention_mask (
jnp.ndarray
形状为(batch_size, target_sequence_length)
, 可选) — 默认行为:生成一个忽略decoder_input_ids
中填充标记的张量。因果掩码也将默认使用。如果你想更改填充行为,你应该根据你的需要进行修改。有关默认策略的更多信息,请参阅 论文 中的图表 1。
- past_key_values (
Dict[str, np.ndarray]
, 可选, 由init_cache
返回或在传递之前的past_key_values
时返回) — 预先计算的隐藏状态字典 (注意力块中的键和值),可用于快速自回归解码。预先计算的键和值隐藏状态的形状为 [batch_size, max_length]。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个简单的元组。
返回值
transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或一个 torch.FloatTensor
元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含各种元素,具体取决于配置(<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>
)和输入。
-
last_hidden_state (
jnp.ndarray
形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出的隐藏状态序列。如果使用了
past_key_values
,则只输出形状为(batch_size, 1, hidden_size)
的序列的最后一个隐藏状态。 -
past_key_values (
tuple(tuple(jnp.ndarray))
, 可选,在传递了use_cache=True
或config.use_cache=True
时返回) — 长度为config.n_layers
的tuple(jnp.ndarray)
元组,每个元组包含两个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量,以及可选地,如果config.is_encoder_decoder=True
,则包含两个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的额外张量。包含预先计算的隐藏状态(自注意力块中的键和值,以及可选地,如果
config.is_encoder_decoder=True
,则包含交叉注意力块中的键和值),可用于(参见past_key_values
输入)加速顺序解码。 -
hidden_states (
tuple(jnp.ndarray)
, 可选, 当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
元组 (一个用于嵌入的输出,另一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个层输出处的隐藏状态以及初始嵌入输出。
-
attentions (
tuple(jnp.ndarray)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(jnp.ndarray)
, 可选,在传递了output_attentions=True
和config.add_cross_attention=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。
示例
>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration
>>> import jax.numpy as jnp
>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")
>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)
>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id
>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> logits = outputs.logits
FlaxLongT5ForConditionalGeneration
class transformers.FlaxLongT5ForConditionalGeneration
< 源代码 >( config: LongT5Config input_shape: Tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )
__call__
< 源代码 > ( input_ids: Array attention_mask: Optional = None decoder_input_ids: Array = None decoder_attention_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None train: bool = False params: dict = None dropout_rng: PRNGKey = None ) → transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或者 tuple(torch.FloatTensor)
参数
- input_ids (
jnp.ndarray
形状为(batch_size, sequence_length)
) — 输入序列标记在词汇表中的索引。LongT5 是一个具有相对位置嵌入的模型,因此您应该能够在左右两侧填充输入。索引可以使用 AutoTokenizer 获取。有关详细信息,请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
要详细了解如何为预训练准备
input_ids
,请查看 LONGT5 训练。 - attention_mask (
jnp.ndarray
形状为(batch_size, sequence_length)
, 可选) — 避免对填充标记索引执行注意力的掩码。掩码值选择在[0, 1]
中:- 1 表示未被掩码的标记,
- 0 表示被掩码的标记。
- decoder_input_ids (
jnp.ndarray
形状为(batch_size, target_sequence_length)
, 可选) — 解码器输入序列标记在词汇表中的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
LONGT5 使用
pad_token_id
作为decoder_input_ids
生成的起始标记。如果使用了past_key_values
,可以选择仅输入最后一个decoder_input_ids
(参见past_key_values
)。要详细了解如何为预训练准备
decoder_input_ids
,请查看 LONGT5 训练。 - decoder_attention_mask (
jnp.ndarray
形状为(batch_size, target_sequence_length)
, 可选) — 默认行为:生成一个忽略decoder_input_ids
中填充标记的张量。因果掩码也将默认使用。
返回值
transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或者 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或者一个 torch.FloatTensor
元组 (如果传递了 return_dict=False
或 config.return_dict=False
) 包含各种元素,具体取决于配置 (LongT5Config) 和输入。
-
logits (
jnp.ndarray
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数 (SoftMax 之前的每个词汇表标记的分数)。 -
past_key_values (
tuple(tuple(jnp.ndarray))
, 可选, 当传递了use_cache=True
或config.use_cache=True
时返回) — 长度为config.n_layers
的tuple(jnp.ndarray)
元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量,以及 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的附加张量。包含预计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(见
past_key_values
输入)加速顺序解码。 -
decoder_hidden_states (
tuple(jnp.ndarray)
, 可选, 当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
元组 (一个用于嵌入的输出,另一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。解码器在每一层输出处的隐藏状态,加上初始嵌入输出。
-
decoder_attentions (
tuple(jnp.ndarray)
, 可选, 当传递了output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(jnp.ndarray)
, 可选, 当传递了output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均值。
-
encoder_last_hidden_state (
jnp.ndarray
形状为(batch_size, sequence_length, hidden_size)
, 可选) — 模型编码器最后一层输出的隐藏状态序列。 -
encoder_hidden_states (
tuple(jnp.ndarray)
, 可选, 当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
元组 (一个用于嵌入的输出,另一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。编码器在每一层输出处的隐藏状态,加上初始嵌入输出。
-
encoder_attentions (
tuple(jnp.ndarray)
, 可选, 当传递了output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
FlaxLongT5PreTrainedModel
的 forward 方法覆盖了 __call__
特殊方法。
尽管前向传递的配方需要在此函数内定义,但应该随后调用 Module
实例而不是此函数,因为前者负责运行前处理和后处理步骤,而后者会静默地忽略它们。
示例
>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration
>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")
>>> ARTICLE_TO_SUMMARIZE = "summarize: My friends are cool but they eat too many carbs."
>>> inputs = tokenizer([ARTICLE_TO_SUMMARIZE], return_tensors="np")
>>> # Generate Summary
>>> summary_ids = model.generate(inputs["input_ids"]).sequences
>>> print(tokenizer.decode(summary_ids[0], skip_special_tokens=True, clean_up_tokenization_spaces=False))
encode
< source > ( input_ids: Array attention_mask: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None train: bool = False params: dict = None dropout_rng: PRNGKey = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutput or tuple(torch.FloatTensor)
参数
- input_ids (
jnp.ndarray
形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。LongT5 是一个具有相对位置嵌入的模型,因此您应该能够在左右两侧填充输入。索引可以使用 AutoTokenizer 获取。请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 获取详细信息。
要了解有关如何为预训练准备
input_ids
的更多信息,请查看 LONGT5 训练。 - attention_mask (
jnp.ndarray
形状为(batch_size, sequence_length)
,可选) — 用于避免对填充标记索引执行注意力的掩码。掩码值在[0, 1]
中选择:- 1 表示未被掩盖的标记,
- 0 表示被掩盖的标记。
- output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量中的hidden_states
。 - return_dict (
bool
,可选) — 是否返回 ModelOutput 而不是普通元组。
返回值
transformers.modeling_flax_outputs.FlaxBaseModelOutput or tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或者一个 torch.FloatTensor
元组 (如果传递了 return_dict=False
或 config.return_dict=False
) 包含各种元素,具体取决于配置 (<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>
) 和输入。
-
last_hidden_state (
jnp.ndarray
形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层输出的隐藏状态序列。 -
hidden_states (
tuple(jnp.ndarray)
, 可选, 当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
元组 (一个用于嵌入的输出,另一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个层输出处的隐藏状态以及初始嵌入输出。
-
attentions (
tuple(jnp.ndarray)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration
>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")
>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)
解码
< source > ( decoder_input_ids encoder_outputs encoder_attention_mask: Optional = None decoder_attention_mask: Optional = None past_key_values: dict = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None train: bool = False params: dict = None dropout_rng: PRNGKey = None ) → transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)
参数
- decoder_input_ids (
jnp.ndarray
形状为(batch_size, target_sequence_length)
) — 词汇表中解码器输入序列标记的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
对于训练,应提供
decoder_input_ids
。 - encoder_outputs (
tuple(tuple(jnp.ndarray)
) — 元组包含 (last_hidden_state
, 可选:hidden_states
, 可选:attentions
)last_hidden_state
形状为(batch_size, sequence_length, hidden_size)
, 可选) 是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。 - encoder_attention_mask (
jnp.ndarray
形状为(batch_size, sequence_length)
, 可选) — 用于避免对填充标记索引执行注意力的掩码。[0, 1]
中选择的掩码值:- 1 表示 未屏蔽 的标记,
- 0 表示 已屏蔽 的标记。
- decoder_attention_mask (
jnp.ndarray
形状为(batch_size, target_sequence_length)
, 可选) — 默认行为:生成一个忽略decoder_input_ids
中填充标记的张量。默认情况下也会使用因果掩码。如果您想更改填充行为,您应该根据您的需要进行修改。有关默认策略的更多信息,请参阅 论文 中的图 1。
- past_key_values (
Dict[str, np.ndarray]
, 可选,由init_cache
返回或在传递上一个past_key_values
时返回) — 预先计算的隐藏状态字典(注意力块中的键和值),可用于快速自回归解码。预先计算的键和值隐藏状态的形状为 [batch_size, max_length]。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个简单的元组。
返回值
transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或 torch.FloatTensor
的元组(如果传递了 return_dict=False
或 config.return_dict=False
),包含取决于配置 (<class 'transformers.models.longt5.configuration_longt5.LongT5Config'>
) 和输入的各种元素。
-
logits (
jnp.ndarray
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数 (SoftMax 之前的每个词汇表标记的分数)。 -
hidden_states (
tuple(jnp.ndarray)
, 可选, 当传递了output_hidden_states=True
或config.output_hidden_states=True
时返回) —jnp.ndarray
元组 (一个用于嵌入的输出,另一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每个层输出处的隐藏状态以及初始嵌入输出。
-
attentions (
tuple(jnp.ndarray)
, 可选, 当传递output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(jnp.ndarray)
, 可选, 当传递了output_attentions=True
或config.output_attentions=True
时返回) —jnp.ndarray
元组 (每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后交叉注意力的权重,用于计算交叉注意力头的加权平均值。
-
past_key_values (
tuple(tuple(jnp.ndarray))
, 可选,在传递use_cache=True
或config.use_cache=True
时返回) — 长度为config.n_layers
的jnp.ndarray
元组的元组,每个元组包含自注意力的缓存键、值状态,以及模型在编码器-解码器设置中使用时的交叉注意力层。仅当config.is_decoder = True
时才相关。包含预先计算的隐藏状态(注意力块中的键和值),可用于(见
past_key_values
输入)加速顺序解码。
示例
>>> from transformers import AutoTokenizer, FlaxLongT5ForConditionalGeneration
>>> import jax.numpy as jnp
>>> tokenizer = AutoTokenizer.from_pretrained("google-t5/t5-base")
>>> model = FlaxLongT5ForConditionalGeneration.from_pretrained("google/long-t5-local-base")
>>> text = "summarize: My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)
>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id
>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> logits = outputs.logits