Transformers 文档
飞马座 (Pegasus)
并获得增强的文档体验
开始使用
飞马座 (Pegasus)
Pegasus是一个编码器-解码器(序列到序列)的转换器模型,经过无标签文本的预训练,以执行抽象摘要。Pegasus在两个自监督目标函数上联合训练:掩蔽语言建模(MLM)和间隙句子生成(GSG)。整个句子被掩蔽,模型必须填补文档中的空白。即使在只有1000个示例的小数据集上,它也能以良好的性能进行微调。
您可以在Google组织下找到所有原始的Pegasus检查点。
点击右侧边栏中的Pegasus模型,查看更多关于如何将Pegasus应用于不同语言任务的示例。
以下示例演示了如何使用Pipeline、AutoModel和命令行来总结文本。
import torch
from transformers import pipeline
pipeline = pipeline(
task="summarization",
model="google/pegasus-xsum",
torch_dtype=torch.float16,
device=0
)
pipeline("""Plants are remarkable organisms that produce their own food using a method called photosynthesis.
This process involves converting sunlight, carbon dioxide, and water into glucose, which provides energy for growth.
Plants play a crucial role in sustaining life on Earth by generating oxygen and serving as the foundation of most ecosystems.""")量化通过以较低精度表示权重来减少大型模型的内存负担。有关更多可用量化后端,请参阅量化概述。
以下示例使用 bitsandbytes 将权重仅量化为 int4。
import torch
from transformers import BitsAndBytesConfig, AutoModelForSeq2SeqLM, AutoTokenizer
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_compute_dtype=torch.bfloat16,
bnb_4bit_quant_type="nf4"
)
model = AutoModelForSeq2SeqLM.from_pretrained(
"google/pegasus-xsum",
torch_dtype=torch.bfloat16,
device_map="auto",
quantization_config=quantization_config
)
tokenizer = AutoTokenizer.from_pretrained(
"google/pegasus-xsum"
)
input_text = """Plants are remarkable organisms that produce their own food using a method called photosynthesis.
This process involves converting sunlight, carbon dioxide, and water into glucose, which provides energy for growth.
Plants play a crucial role in sustaining life on Earth by generating oxygen and serving as the foundation of most ecosystems."""
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
output = model.generate(**input_ids, cache_implementation="static")
print(tokenizer.decode(output[0], skip_special_tokens=True))注意事项
AdaFactor是微调Pegasus的推荐优化器。- 此Pegasus实现继承自BartForConditionalGeneration,但它使用静态/正弦位置嵌入。Pegasus还以
pad_token_id作为前缀开始生成,并使用num_beams=8。
PegasusConfig
class transformers.PegasusConfig
< 来源 >( vocab_size = 50265 max_position_embeddings = 1024 encoder_layers = 12 encoder_ffn_dim = 4096 encoder_attention_heads = 16 decoder_layers = 12 decoder_ffn_dim = 4096 decoder_attention_heads = 16 encoder_layerdrop = 0.0 decoder_layerdrop = 0.0 use_cache = True is_encoder_decoder = True activation_function = 'gelu' d_model = 1024 dropout = 0.1 attention_dropout = 0.0 activation_dropout = 0.0 init_std = 0.02 decoder_start_token_id = 0 scale_embedding = False pad_token_id = 0 eos_token_id = 1 forced_eos_token_id = 1 **kwargs )
参数
- vocab_size (
int, 可选, 默认为 50265) — PEGASUS模型的词汇表大小。定义了调用PegasusModel或TFPegasusModel时可以通过inputs_ids表示的不同token的数量。 - d_model (
int, 可选, 默认为 1024) — 层和池化层的维度。 - encoder_layers (
int, 可选, 默认为 12) — 编码器层的数量。 - decoder_layers (
int, 可选, 默认为 12) — 解码器层的数量。 - encoder_attention_heads (
int, 可选, 默认为 16) — Transformer编码器中每个注意力层的注意力头数量。 - decoder_attention_heads (
int, 可选, 默认为 16) — Transformer解码器中每个注意力层的注意力头数量。 - decoder_ffn_dim (
int, 可选, 默认为 4096) — 解码器中“中间”(通常称为前馈)层的维度。 - encoder_ffn_dim (
int, 可选, 默认为 4096) — 解码器中“中间”(通常称为前馈)层的维度。 - activation_function (
str或function, 可选, 默认为"gelu") — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"、"relu"、"silu"和"gelu_new"。 - dropout (
float, 可选, 默认为 0.1) — 嵌入层、编码器和池化器中所有全连接层的丢弃概率。 - attention_dropout (
float, 可选, 默认为 0.0) — 注意力概率的丢弃率。 - activation_dropout (
float, 可选, 默认为 0.0) — 全连接层内部激活的丢弃率。 - max_position_embeddings (
int, 可选, 默认为 1024) — 此模型可能使用的最大序列长度。通常设置为一个较大的值以防万一(例如,512、1024或2048)。 - init_std (
float, 可选, 默认为 0.02) — 用于初始化所有权重矩阵的truncated_normal_initializer的标准差。 - encoder_layerdrop (
float, 可选, 默认为 0.0) — 编码器的LayerDrop概率。更多详情请参见[LayerDrop论文](参见https://huggingface.co/papers/1909.11556)。 - decoder_layerdrop (
float, 可选, 默认为 0.0) — 解码器的LayerDrop概率。更多详情请参见[LayerDrop论文](参见https://huggingface.co/papers/1909.11556)。 - scale_embedding (
bool, 可选, 默认为False) — 通过除以sqrt(d_model)来缩放嵌入。 - use_cache (
bool, 可选, 默认为True) — 模型是否应返回最后一个键/值注意力(并非所有模型都使用)。 - forced_eos_token_id (
int, 可选, 默认为 1) — 达到max_length时强制作为最后一个生成的token的ID。通常设置为eos_token_id。
这是用于存储PegasusModel配置的配置类。它用于根据指定参数实例化PEGASUS模型,定义模型架构。使用默认值实例化配置将产生类似于PEGASUS google/pegasus-large架构的配置。
配置对象继承自PretrainedConfig,可用于控制模型输出。有关更多信息,请参阅PretrainedConfig的文档。
示例
>>> from transformers import PegasusConfig, PegasusModel
>>> # Initializing a PEGASUS google/pegasus-large style configuration
>>> configuration = PegasusConfig()
>>> # Initializing a model (with random weights) from the google/pegasus-large style configuration
>>> model = PegasusModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.configPegasusTokenizer
警告:add_tokens目前无法工作。
class transformers.PegasusTokenizer
< 来源 >( vocab_file pad_token = '<pad>' eos_token = '</s>' unk_token = '<unk>' mask_token = '<mask_2>' mask_token_sent = '<mask_1>' additional_special_tokens = None offset = 103 sp_model_kwargs: typing.Optional[dict[str, typing.Any]] = None **kwargs )
参数
- vocab_file (
str) — SentencePiece文件(通常以.spm扩展名结尾),其中包含实例化分词器所需的词汇表。 - pad_token (
str, 可选, 默认为"<pad>") — 用于填充的token,例如当批量处理不同长度的序列时。 - eos_token (
str, 可选, 默认为"</s>") — 序列结束符。当使用特殊标记构建序列时,这不是用于序列结束的标记。所使用的标记是
sep_token。 - unk_token (
str, 可选, 默认为"<unk>") — 未知标记。不在词汇表中的标记无法转换为ID,而是设置为此标记。 - mask_token (
str, 可选, 默认为"<mask_2>") — 用于遮蔽单个标记值的标记。这是使用遮蔽语言建模 (MLM) 训练此模型时使用的标记。这是 PEGASUS 编码器在预训练期间尝试预测的标记。它对应于 PEGASUS: 用于抽象摘要的提取式句子生成预训练 中的 [MASK2]。 - mask_token_sent (
str, 可选, 默认为"<mask_1>") — 用于遮蔽整个目标句子的标记。这是使用间隙句子生成 (GSG) 训练此模型时使用的标记。这是 PEGASUS 解码器在预训练期间尝试预测的句子。它对应于 PEGASUS: 用于抽象摘要的提取式句子生成预训练 中的 [MASK1]。 - additional_special_tokens (
List[str], 可选) — 标记器使用的额外特殊标记。如果未提供额外的特殊标记,则使用 <mask_2> 和 <unk_2, …, unk_102> 作为额外的特殊标记,对应于 原始 PEGASUS 标记器,该标记器仅在预训练时使用标记 2 - 104。 - sp_model_kwargs (
dict, 可选) — 将传递给SentencePieceProcessor.__init__()方法。 SentencePiece 的 Python 包装器 可用于设置(其中包括):-
enable_sampling: 启用子词正则化。 -
nbest_size: Unigram 采样参数。对于 BPE-Dropout 无效。nbest_size = {0,1}: 不执行采样。nbest_size > 1: 从 nbest_size 结果中采样。nbest_size < 0: 假设 nbest_size 是无限的,并使用前向滤波和后向采样算法从所有假设(格)中采样。
-
alpha: 用于 unigram 采样的平滑参数,以及用于 BPE-dropout 的合并操作的 dropout 概率。
-
构建 PEGASUS 标记器。基于 SentencePiece。
此标记器继承自 PreTrainedTokenizer,其中包含大部分主要方法。用户应参阅此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< source >( token_ids_0 token_ids_1 = None ) → List[int]
通过连接和添加特殊标记,为序列分类任务从一个序列或一对序列构建模型输入。PEGASUS 序列具有以下格式,其中 X 表示序列
- 单个序列:
X </s> - 序列对:
A B </s>(不推荐使用)
从不使用 BOS。序列对不是预期的用例,但它们将在没有分隔符的情况下处理。
将标记序列(字符串)转换为单个字符串。
get_special_tokens_mask
< source >( token_ids_0: list token_ids_1: typing.Optional[list] = None already_has_special_tokens: bool = False )
获取一个列表,其中如果标记是 [eos] 或 [pad],则条目为 [1],否则为 0。
仅 EOS
PegasusTokenizerFast
class transformers.PegasusTokenizerFast
< source >( vocab_file = None tokenizer_file = None pad_token = '<pad>' eos_token = '</s>' unk_token = '<unk>' mask_token = '<mask_2>' mask_token_sent = '<mask_1>' additional_special_tokens = None offset = 103 **kwargs )
参数
- vocab_file (
str) — SentencePiece 文件(通常具有 .spm 扩展名),其中包含实例化标记器所需的词汇表。 - pad_token (
str, 可选, 默认为"<pad>") — 用于填充的标记,例如在批处理不同长度的序列时。 - eos_token (
str, 可选, 默认为"</s>") — 序列结束符。当使用特殊标记构建序列时,这不是用于序列结束的标记。所使用的标记是
sep_token。 - unk_token (
str, 可选, 默认为"<unk>") — 未知标记。不在词汇表中的标记无法转换为 ID,而是设置为此标记。 - mask_token (
str, 可选, 默认为"<mask_2>") — 用于遮蔽单个标记值的标记。这是使用遮蔽语言建模 (MLM) 训练此模型时使用的标记。这是 PEGASUS 编码器在预训练期间尝试预测的标记。它对应于 PEGASUS: 用于抽象摘要的提取式句子生成预训练 中的 [MASK2]。 - mask_token_sent (
str, 可选, 默认为"<mask_1>") — 用于遮蔽整个目标句子的标记。这是使用间隙句子生成 (GSG) 训练此模型时使用的标记。这是 PEGASUS 解码器在预训练期间尝试预测的句子。它对应于 PEGASUS: 用于抽象摘要的提取式句子生成预训练 中的 [MASK1]。 - additional_special_tokens (
List[str], 可选) — 标记器使用的额外特殊标记。如果未提供额外的特殊标记,则使用 <mask_2> 和 <unk_2, …, unk_102> 作为额外的特殊标记,对应于 原始 PEGASUS 标记器,该标记器仅在预训练时使用标记 2 - 104。
构建一个“快速”PEGASUS 标记器(由 HuggingFace 的 tokenizers 库支持)。基于 Unigram。
此标记器继承自 PreTrainedTokenizerFast,其中包含大部分主要方法。用户应参阅此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens
< source >( token_ids_0 token_ids_1 = None ) → List[int]
通过在末尾添加 EOS 构建序列的模型输入。前端不添加 BOS 标记。
- 单个序列:
X </s> - 序列对:
A B </s>(不推荐使用)
get_special_tokens_mask
< source >( token_ids_0: list token_ids_1: typing.Optional[list] = None already_has_special_tokens: bool = False )
获取一个列表,其中如果标记是 [eos] 或 [pad],则条目为 [1],否则为 0。
PegasusModel
class transformers.PegasusModel
< source >( config: PegasusConfig )
参数
- config (PegasusConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不加载与模型关联的权重,仅加载配置。查看 from_pretrained() 方法加载模型权重。
裸 Pegasus 模型输出原始隐藏状态,顶部没有任何特定头部。
此模型继承自 PreTrainedModel。查看超类文档以获取库为其所有模型实现的一般方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参阅 PyTorch 文档以获取所有与一般用法和行为相关的事项。
forward
< source >( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None decoder_input_ids: typing.Optional[torch.Tensor] = None decoder_attention_mask: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[tuple[torch.FloatTensor]] = None past_key_values: typing.Optional[tuple[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.Tensor] = None decoder_inputs_embeds: typing.Optional[torch.Tensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.Tensor] = None ) → transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (形状为
(batch_size, sequence_length)的torch.Tensor, 可选) — 词汇表中输入序列标记的索引。默认情况下会忽略填充。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (形状为
(batch_size, sequence_length)的torch.Tensor, 可选) — 避免对填充标记索引执行注意力的掩码。掩码值在[0, 1]中选择:- 1 表示未被遮蔽的标记,
- 0 表示被遮蔽的标记。
- decoder_input_ids (形状为
(batch_size, target_sequence_length)的torch.LongTensor, 可选) — 解码器输入序列标记在词汇表中的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
Pegasus 使用
pad_token_id作为decoder_input_ids生成的起始标记。如果使用past_key_values,则可以选择只输入最后一个decoder_input_ids(那些没有将其过去的键值状态提供给此模型的),形状为(batch_size, 1),而不是所有input_ids的形状(batch_size, sequence_length)。 - decoder_attention_mask (形状为
(batch_size, target_sequence_length)的torch.LongTensor, 可选) — 默认行为:生成一个忽略decoder_input_ids中填充标记的张量。默认情况下也会使用因果掩码。 - head_mask (形状为
(num_heads,)或(num_layers, num_heads)的torch.Tensor, 可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值在[0, 1]中选择:- 1 表示头部未被遮蔽,
- 0 表示头部被遮蔽。
- decoder_head_mask (形状为
(decoder_layers, decoder_attention_heads)的torch.Tensor, 可选) — 用于使解码器中注意力模块的选定头部无效的掩码。掩码值在[0, 1]中选择:- 1 表示头部未被遮蔽,
- 0 表示头部被遮蔽。
- cross_attn_head_mask (形状为
(decoder_layers, decoder_attention_heads)的torch.Tensor, 可选) — 用于使解码器中交叉注意力模块的选定头部无效的掩码。掩码值在[0, 1]中选择:- 1 表示头部未被遮蔽,
- 0 表示头部被遮蔽。
- encoder_outputs (
tuple[torch.FloatTensor], 可选) — 元组包含 (last_hidden_state, 可选:hidden_states, 可选:attentions)last_hidden_state形状为(batch_size, sequence_length, hidden_size),可选) 是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。 - past_key_values (
tuple[torch.FloatTensor], 可选) — 预计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在解码上一阶段返回的past_key_values,当use_cache=True或config.use_cache=True时。允许两种格式:
- Cache 实例,请参阅我们的 kv 缓存指南;
- 长度为
config.n_layers的tuple(torch.FloatTensor)元组,每个元组包含两个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。这也被称为旧版缓存格式。
模型将输出与输入相同的缓存格式。如果未传递
past_key_values,则将返回旧版缓存格式。如果使用
past_key_values,用户可以选择只输入最后一个input_ids(那些没有将其过去的键值状态提供给此模型的),形状为(batch_size, 1),而不是所有input_ids的形状(batch_size, sequence_length)。 - inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)的torch.Tensor, 可选) — (可选)您可以选择直接传递嵌入表示,而不是传递input_ids。如果您希望对input_ids索引如何转换为关联向量有比模型内部嵌入查找矩阵更多的控制,这会很有用。 - decoder_inputs_embeds (形状为
(batch_size, target_sequence_length, hidden_size)的torch.Tensor, 可选) — (可选)您可以选择直接传递嵌入表示,而不是传递decoder_input_ids。如果使用past_key_values,则可以选择只输入最后一个decoder_inputs_embeds(请参阅past_key_values)。如果您希望对decoder_input_ids索引如何转换为关联向量有比模型内部嵌入查找矩阵更多的控制,这会很有用。如果
decoder_input_ids和decoder_inputs_embeds都未设置,则decoder_inputs_embeds将采用inputs_embeds的值。 - use_cache (
bool, 可选) — 如果设置为True,则返回past_key_values键值状态,可用于加速解码(请参阅past_key_values)。 - output_attentions (
bool, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量中的attentions。 - output_hidden_states (
bool, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量中的hidden_states。 - return_dict (
bool, 可选) — 是否返回 ModelOutput 而不是普通元组。 - cache_position (形状为
(sequence_length)的torch.Tensor, 可选) — 表示输入序列标记在序列中的位置的索引。与position_ids不同,此张量不受填充影响。它用于在正确位置更新缓存并推断完整的序列长度。
返回
transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或 config.return_dict=False),包含根据配置 (PegasusConfig) 和输入的不同元素。
-
last_hidden_state (
torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size)) — 模型解码器最后一层输出的隐藏状态序列。如果使用了
past_key_values,则只输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。 -
past_key_values (
EncoderDecoderCache, 可选, 当use_cache=True或config.use_cache=True时返回) — 它是一个 EncoderDecoderCache 实例。有关更多详细信息,请参阅我们的 kv 缓存指南。包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见
past_key_values输入)加速顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor), 可选, 当output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(一个用于嵌入层输出,如果模型有嵌入层,+ 每个层的输出)。解码器在每个层输出的隐藏状态,加上可选的初始嵌入输出。
-
decoder_attentions (
tuple(torch.FloatTensor), 可选, 当output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每个层一个)。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
-
cross_attentions (
tuple(torch.FloatTensor), 可选, 当output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每个层一个)。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。
-
encoder_last_hidden_state (
torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size),可选) — 模型编码器最后一层输出的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor), 可选, 当output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(一个用于嵌入层输出,如果模型有嵌入层,+ 每个层的输出)。编码器在每个层输出的隐藏状态,加上可选的初始嵌入输出。
-
encoder_attentions (
tuple(torch.FloatTensor), 可选, 当output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每个层一个)。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
PegasusModel forward 方法,覆盖 __call__ 特殊方法。
尽管前向传播的配方需要在此函数中定义,但此后应调用 Module 实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, PegasusModel
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-large")
>>> model = PegasusModel.from_pretrained("google/pegasus-large")
>>> inputs = tokenizer("Studies have been shown that owning a dog is good for you", return_tensors="pt")
>>> decoder_inputs = tokenizer("Studies show that", return_tensors="pt")
>>> outputs = model(input_ids=inputs.input_ids, decoder_input_ids=decoder_inputs.input_ids)
>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 4, 1024]PegasusForConditionalGeneration
class transformers.PegasusForConditionalGeneration
< source >( config: PegasusConfig )
参数
- config (PegasusConfig) — 模型的配置类,包含模型的所有参数。用配置文件初始化并不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法来加载模型权重。
带语言建模头的 PEGASUS 模型。可用于摘要。
此模型继承自 PreTrainedModel。查看超类文档以获取库为其所有模型实现的一般方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参阅 PyTorch 文档以获取所有与一般用法和行为相关的事项。
forward
< source >( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None decoder_input_ids: typing.Optional[torch.Tensor] = None decoder_attention_mask: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[tuple[torch.FloatTensor]] = None past_key_values: typing.Optional[tuple[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.Tensor] = None decoder_inputs_embeds: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.Tensor] = None ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 词汇表中输入序列 token 的索引。默认情况下会忽略填充。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 掩码,用于避免在填充 token 索引上执行注意力。掩码值选择范围为[0, 1]:- 1 表示 token 未被掩码,
- 0 表示 token 被掩码。
- decoder_input_ids (
torch.LongTensor,形状为(batch_size, target_sequence_length),可选) — 词汇表中解码器输入序列 token 的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
Pegasus 使用
pad_token_id作为decoder_input_ids生成的起始 token。如果使用past_key_values,可以选择只输入最后一个decoder_input_ids(那些没有将过去键值状态提供给此模型的 token)(请参阅past_key_values)。 - decoder_attention_mask (
torch.LongTensor,形状为(batch_size, target_sequence_length),可选) — 默认行为:生成一个忽略decoder_input_ids中填充 token 的张量。默认情况下也会使用因果掩码。 - head_mask (
torch.Tensor,形状为(num_heads,)或(num_layers, num_heads),可选) — 掩码,用于将自注意力模块的选定头部置空。掩码值选择范围为[0, 1]:- 1 表示头部未被掩码,
- 0 表示头部被掩码。
- decoder_head_mask (
torch.Tensor,形状为(decoder_layers, decoder_attention_heads),可选) — 掩码,用于将解码器中注意力模块的选定头部置空。掩码值选择范围为[0, 1]:- 1 表示头部未被掩码,
- 0 表示头部被掩码。
- cross_attn_head_mask (
torch.Tensor,形状为(decoder_layers, decoder_attention_heads),可选) — 掩码,用于将解码器中交叉注意力模块的选定头部置空。掩码值选择范围为[0, 1]:- 1 表示头部未被掩码,
- 0 表示头部被掩码。
- encoder_outputs (
tuple[torch.FloatTensor],可选) — 元组包含 (last_hidden_state, 可选:hidden_states, 可选:attentions)last_hidden_state形状为(batch_size, sequence_length, hidden_size),可选) 是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。 - past_key_values (
tuple[torch.FloatTensor],可选) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在解码上一阶段返回的past_key_values,当use_cache=True或config.use_cache=True时。允许两种格式:
- 一个 Cache 实例,请参阅我们的 kv 缓存指南;
config.n_layers长度的tuple(torch.FloatTensor)元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。这也称为旧版缓存格式。
模型将输出与作为输入提供的缓存格式相同的缓存格式。如果未传递
past_key_values,将返回旧版缓存格式。如果使用
past_key_values,用户可以选择只输入最后一个input_ids(那些没有将过去键值状态提供给此模型的 token),其形状为(batch_size, 1),而不是所有input_ids的形状(batch_size, sequence_length)。 - inputs_embeds (
torch.Tensor,形状为(batch_size, sequence_length, hidden_size),可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您希望对如何将input_ids索引转换为相关向量比模型内部的嵌入查找矩阵有更多的控制,这会很有用。 - decoder_inputs_embeds (
torch.Tensor,形状为(batch_size, target_sequence_length, hidden_size),可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递decoder_input_ids。如果使用past_key_values,可以选择只输入最后一个decoder_inputs_embeds(请参阅past_key_values)。如果您希望对如何将decoder_input_ids索引转换为相关向量比模型内部的嵌入查找矩阵有更多的控制,这会很有用。如果
decoder_input_ids和decoder_inputs_embeds都未设置,则decoder_inputs_embeds将采用inputs_embeds的值。 - labels (
torch.LongTensor,形状为(batch_size, sequence_length),可选) — 用于计算掩码语言建模损失的标签。索引应在[0, ..., config.vocab_size]或 -100 之间(请参阅input_ids文档字符串)。索引设置为-100的 token 将被忽略(掩码),损失只针对标签在[0, ..., config.vocab_size]中的 token 计算。 - use_cache (
bool,可选) — 如果设置为True,将返回past_key_values键值状态,可用于加速解码(请参阅past_key_values)。 - output_attentions (
bool,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。 - output_hidden_states (
bool,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。 - return_dict (
bool,可选) — 是否返回 ModelOutput 而不是普通元组。 - cache_position (
torch.Tensor,形状为(sequence_length),可选) — 描述输入序列 token 在序列中位置的索引。与position_ids不同,此张量不受填充影响。它用于在正确位置更新缓存并推断完整的序列长度。
返回
transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.Seq2SeqLMOutput 或一个 torch.FloatTensor 元组(如果传递 return_dict=False 或 config.return_dict=False),包含根据配置 (PegasusConfig) 和输入的不同元素。
-
loss (
torch.FloatTensor,形状为(1,),可选,当提供labels时返回) — 语言建模损失。 -
logits (形状为
(batch_size, sequence_length, config.vocab_size)的torch.FloatTensor) — 语言建模头部的预测分数(SoftMax 之前的每个词汇标记的分数)。 -
past_key_values (
EncoderDecoderCache, 可选, 当use_cache=True或config.use_cache=True时返回) — 它是一个 EncoderDecoderCache 实例。有关更多详细信息,请参阅我们的 kv 缓存指南。包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见
past_key_values输入)加速顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor), 可选, 当output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(一个用于嵌入层输出,如果模型有嵌入层,+ 每个层的输出)。解码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
decoder_attentions (
tuple(torch.FloatTensor), 可选, 当output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每个层一个)。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
-
cross_attentions (
tuple(torch.FloatTensor), 可选, 当output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每个层一个)。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。
-
encoder_last_hidden_state (
torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size),可选) — 模型编码器最后一层输出的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor), 可选, 当output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(一个用于嵌入层输出,如果模型有嵌入层,+ 每个层的输出)。编码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
encoder_attentions (
tuple(torch.FloatTensor), 可选, 当output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每个层一个)。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
PegasusForConditionalGeneration 的 forward 方法,覆盖了 __call__ 特殊方法。
尽管前向传播的配方需要在此函数中定义,但此后应调用 Module 实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
摘要示例
>>> from transformers import AutoTokenizer, PegasusForConditionalGeneration
>>> model = PegasusForConditionalGeneration.from_pretrained("google/pegasus-xsum")
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-xsum")
>>> ARTICLE_TO_SUMMARIZE = (
... "PG&E stated it scheduled the blackouts in response to forecasts for high winds "
... "amid dry conditions. The aim is to reduce the risk of wildfires. Nearly 800 thousand customers were "
... "scheduled to be affected by the shutoffs which were expected to last through at least midday tomorrow."
... )
>>> inputs = tokenizer(ARTICLE_TO_SUMMARIZE, max_length=1024, return_tensors="pt")
>>> # Generate Summary
>>> summary_ids = model.generate(inputs["input_ids"])
>>> tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"California's largest electricity provider has turned off power to hundreds of thousands of customers."PegasusForCausalLM
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.FloatTensor] = None head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor,形状为(batch_size, sequence_length),可选) — 词汇表中输入序列 token 的索引。默认情况下会忽略填充。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 掩码,用于避免在填充 token 索引上执行注意力。掩码值选择范围为[0, 1]:- 1 表示 token 未被掩码,
- 0 表示 token 被掩码。
- encoder_hidden_states (
torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size),可选) — 编码器最后一层输出的隐藏状态序列。如果模型被配置为解码器,则用于交叉注意力。 - encoder_attention_mask (
torch.FloatTensor,形状为(batch_size, sequence_length),可选) — 掩码,用于避免在编码器输入的填充 token 索引上执行注意力。如果模型被配置为解码器,则此掩码用于交叉注意力。掩码值选择范围为[0, 1]:- 1 表示 token 未被掩码,
- 0 表示 token 被掩码。
- head_mask (
torch.Tensor,形状为(num_heads,)或(num_layers, num_heads),可选) — 掩码,用于将自注意力模块的选定头部置空。掩码值选择范围为[0, 1]:- 1 表示头部未被掩码,
- 0 表示头部被掩码。
- cross_attn_head_mask (
torch.Tensor,形状为(decoder_layers, decoder_attention_heads),可选) — 掩码,用于将交叉注意力模块的选定头部置空。掩码值选择范围为[0, 1]:- 1 表示头部未被掩码,
- 0 表示头部被掩码。
- past_key_values (
list[torch.FloatTensor],可选) — 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在解码上一阶段返回的past_key_values,当use_cache=True或config.use_cache=True时。允许两种格式:
- 一个 Cache 实例,请参阅我们的 kv 缓存指南;
config.n_layers长度的tuple(torch.FloatTensor)元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。这也称为旧版缓存格式。
模型将输出与作为输入提供的缓存格式相同的缓存格式。如果未传递
past_key_values,将返回旧版缓存格式。如果使用
past_key_values,用户可以选择只输入最后一个input_ids(那些没有将过去键值状态提供给此模型的 token),其形状为(batch_size, 1),而不是所有input_ids的形状(batch_size, sequence_length)。 - inputs_embeds (
torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size),可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您希望对如何将input_ids索引转换为相关向量比模型内部的嵌入查找矩阵有更多的控制,这会很有用。 - labels (
torch.LongTensor,形状为(batch_size, sequence_length),可选) — 用于计算掩码语言建模损失的标签。索引应在[0, ..., config.vocab_size]或 -100 之间(请参阅input_ids文档字符串)。索引设置为-100的 token 将被忽略(掩码),损失只针对标签在[0, ..., config.vocab_size]中的 token 计算。 - use_cache (
bool,可选) — 如果设置为True,将返回past_key_values键值状态,可用于加速解码(请参阅past_key_values)。 - output_attentions (
bool,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。 - output_hidden_states (
bool,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。 - return_dict (
bool,可选) — 是否返回 ModelOutput 而不是普通元组。 - cache_position (
torch.LongTensor,形状为(sequence_length),可选) — 描述输入序列 token 在序列中位置的索引。与position_ids不同,此张量不受填充影响。它用于在正确位置更新缓存并推断完整的序列长度。
返回
transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或一个 torch.FloatTensor 元组(如果传递 return_dict=False 或 config.return_dict=False),包含根据配置 (PegasusConfig) 和输入的不同元素。
-
loss (
torch.FloatTensor形状为(1,),可选,当提供labels时返回) — 语言建模损失(用于下一个 token 预测)。 -
logits (形状为
(batch_size, sequence_length, config.vocab_size)的torch.FloatTensor) — 语言建模头部的预测分数(SoftMax 之前的每个词汇标记的分数)。 -
hidden_states (
tuple(torch.FloatTensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) —torch.FloatTensor的元组(如果模型有嵌入层,则其中一个用于嵌入层输出,加上每个层的一个输出),形状为(batch_size, sequence_length, hidden_size)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) —torch.FloatTensor的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(torch.FloatTensor), 可选, 当output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每个层一个)。注意力 softmax 后的交叉注意力权重,用于计算交叉注意力头中的加权平均。
-
past_key_values (
Cache,可选,当传递use_cache=True或config.use_cache=True时返回) — 这是一个 Cache 实例。有关更多详细信息,请参阅我们的 kv 缓存指南。包含预先计算的隐藏状态(注意力块中的键和值),可用于(参见
past_key_values输入)加速顺序解码。
PegasusForCausalLM 的 forward 方法,覆盖了 __call__ 特殊方法。
尽管前向传播的配方需要在此函数中定义,但此后应调用 Module 实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, PegasusForCausalLM
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-large")
>>> model = PegasusForCausalLM.from_pretrained("google/pegasus-large", add_cross_attention=False)
>>> assert model.config.is_decoder, f"{model.__class__} has to be configured as a decoder."
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> expected_shape = [1, inputs.input_ids.shape[-1], model.config.vocab_size]
>>> list(logits.shape) == expected_shape
TrueTFPegasusModel
class transformers.TFPegasusModel
< source >( config: PegasusConfig *inputs **kwargs )
参数
- config (PegasusConfig) — 模型的配置类,包含模型的所有参数。用配置文件初始化并不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法来加载模型权重。
裸 PEGASAUS 模型,输出原始隐藏状态,不带任何特定头部。此模型继承自 TFPreTrainedModel。请查看超类文档,了解库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 keras.Model 的子类。将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有与通用用法和行为相关的事项。
transformers 中的 TensorFlow 模型和层接受两种输入格式
- 所有输入作为关键字参数(如 PyTorch 模型),或
- 所有输入作为第一个位置参数中的列表、元组或字典。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用 model.fit() 等方法时,一切都应该“正常工作”——只需以 model.fit() 支持的任何格式传递您的输入和标签即可!但是,如果您想在 Keras 方法(如 fit() 和 predict())之外使用第二种格式,例如在使用 Keras Functional API 创建自己的层或模型时,您可以使用三种可能性来将所有输入张量收集到第一个位置参数中
- 只有一个
input_ids的单个张量,没有其他:model(input_ids) - 长度可变的列表,包含一个或多个输入张量,按文档字符串中给出的顺序:
model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids]) - 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您无需担心这些,因为您可以像调用任何其他 Python 函数一样传递输入!
调用
< source >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None decoder_input_ids: np.ndarray | tf.Tensor | None = None decoder_attention_mask: np.ndarray | tf.Tensor | None = None decoder_position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None decoder_head_mask: np.ndarray | tf.Tensor | None = None cross_attn_head_mask: np.ndarray | tf.Tensor | None = None encoder_outputs: Optional[Union[tuple, TFBaseModelOutput]] = None past_key_values: Optional[tuple[tuple[Union[np.ndarray, tf.Tensor]]]] = None inputs_embeds: np.ndarray | tf.Tensor | None = None decoder_inputs_embeds: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False **kwargs ) → transformers.modeling_tf_outputs.TFSeq2SeqModelOutput 或 tuple(tf.Tensor)
参数
- input_ids (
tf.Tensor,形状为(batch_size, sequence_length)) — 词汇表中输入序列 token 的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
tf.Tensor,形状为(batch_size, sequence_length),可选) — 掩码,用于避免在填充 token 索引上执行注意力。掩码值选择范围为[0, 1]:- 1 表示 token 未被掩码,
- 0 表示 token 被掩码。
- decoder_input_ids (
tf.Tensor,形状为(batch_size, target_sequence_length),可选) — 词汇表中解码器输入序列 token 的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
Pegasus 使用
pad_token_id作为decoder_input_ids生成的起始 token。如果使用past_key_values,可以选择只输入最后一个decoder_input_ids(那些没有将过去键值状态提供给此模型的 token)(请参阅past_key_values)。 - decoder_attention_mask (形状为
(batch_size, target_sequence_length)的tf.Tensor,可选) — 默认情况下会自动生成并忽略填充标记。在大多数使用场景下不建议手动设置此参数。 - decoder_position_ids (形状为
(batch_size, sequence_length)的tf.Tensor,可选) — 解码器输入序列中每个标记在位置嵌入中的索引。选择范围为[0, config.max_position_embeddings - 1]。 - head_mask (形状为
(encoder_layers, encoder_attention_heads)的tf.Tensor,可选) — 用于使编码器中注意力模块的选定头无效的掩码。掩码值选择范围为[0, 1]:- 1 表示头部未被掩盖,
- 0 表示头部被掩盖。
- decoder_head_mask (形状为
(decoder_layers, decoder_attention_heads)的tf.Tensor,可选) — 用于使解码器中注意力模块的选定头无效的掩码。掩码值选择范围为[0, 1]:- 1 表示头部未被掩盖,
- 0 表示头部被掩盖。
- cross_attn_head_mask (形状为
(decoder_layers, decoder_attention_heads)的tf.Tensor,可选) — 用于使交叉注意力模块的选定头无效的掩码。掩码值选择范围为[0, 1]:- 1 表示头部未被掩盖,
- 0 表示头部被掩盖。
- encoder_outputs (
tf.FloatTensor,可选) — 编码器最后一层输出的隐藏状态。用于解码器的交叉注意力。形状为(batch_size, sequence_length, hidden_size)的序列。 - past_key_values (长度为
config.n_layers的tuple[tuple[tf.Tensor]]) — 包含注意力块的预计算键值隐藏状态。可用于加速解码。如果使用past_key_values,用户可以选择仅输入最后一个decoder_input_ids(那些没有将其过去的键值状态提供给此模型的)形状为(batch_size, 1),而不是所有decoder_input_ids形状为(batch_size, sequence_length)。 - inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)的tf.Tensor,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您希望对input_ids索引如何转换为相关向量有比模型内部嵌入查找矩阵更多的控制,这很有用。 - use_cache (
bool,可选,默认为True) — 如果设置为True,将返回past_key_values键值状态,可用于加速解码(参见past_key_values)。在训练期间设置为False,在生成期间设置为True。output_attentions (bool,可选):是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - output_attentions (
bool,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - output_hidden_states (
bool,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - return_dict (
bool,可选) — 是否返回 ModelOutput 而不是普通元组。此参数可在 eager 模式下使用,在 graph 模式下此值始终设置为True。 - training (
bool,可选,默认为False) — 是否在训练模式下使用模型(某些模块如 dropout 模块在训练和评估之间有不同的行为)。
返回
transformers.modeling_tf_outputs.TFSeq2SeqModelOutput 或 tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFSeq2SeqModelOutput 或一个 tf.Tensor 元组(如果传递 return_dict=False 或 config.return_dict=False),包含取决于配置 (PegasusConfig) 和输入的各种元素。
-
last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的tf.Tensor) — 模型解码器最后一层输出的隐藏状态序列。如果使用了
past_key_values,则只输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。 -
past_key_values (
list[tf.Tensor],可选,当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表,每个张量形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head))。包含解码器注意力块的预计算隐藏状态(键和值),可用于(参见
past_key_values输入)加速顺序解码。 -
decoder_hidden_states (
tuple(tf.Tensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) —tf.Tensor元组(一个用于嵌入输出 + 每个层输出一个),形状为(batch_size, sequence_length, hidden_size)。解码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
decoder_attentions (
tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) —tf.Tensor元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
-
cross_attentions (
tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) —tf.Tensor元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。
-
encoder_last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的tf.Tensor, 可选) — 模型编码器最后一层输出的隐藏状态序列。 -
encoder_hidden_states (
tuple(tf.Tensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) —tf.Tensor元组(一个用于嵌入输出 + 每个层输出一个),形状为(batch_size, sequence_length, hidden_size)。编码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
encoder_attentions (
tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) —tf.Tensor元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
TFPegasusModel 的前向方法,覆盖了 __call__ 特殊方法。
尽管前向传播的配方需要在此函数中定义,但此后应调用 Module 实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, TFPegasusModel
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-large")
>>> model = TFPegasusModel.from_pretrained("google/pegasus-large")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)
>>> last_hidden_states = outputs.last_hidden_stateTFPegasusForConditionalGeneration
class transformers.TFPegasusForConditionalGeneration
< source >( config *inputs **kwargs )
参数
- config (PegasusConfig) — 带有模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法来加载模型权重。
带有语言建模头的 PEGASUS 模型。可用于摘要。此模型继承自 TFPreTrainedModel。请查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 keras.Model 的子类。将其作为常规 TF 2.0 Keras 模型使用,并参考 TF 2.0 文档了解所有与通用用法和行为相关的事项。
transformers 中的 TensorFlow 模型和层接受两种输入格式
- 所有输入作为关键字参数(如 PyTorch 模型),或
- 所有输入作为第一个位置参数中的列表、元组或字典。
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用 model.fit() 等方法时,一切都应该“正常工作”——只需以 model.fit() 支持的任何格式传递您的输入和标签即可!但是,如果您想在 Keras 方法(如 fit() 和 predict())之外使用第二种格式,例如在使用 Keras Functional API 创建自己的层或模型时,您可以使用三种可能性来将所有输入张量收集到第一个位置参数中
- 只有一个
input_ids的单个张量,没有其他:model(input_ids) - 长度可变的列表,包含一个或多个输入张量,按文档字符串中给出的顺序:
model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids]) - 一个字典,其中包含一个或多个与文档字符串中给出的输入名称关联的输入张量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您无需担心这些,因为您可以像调用任何其他 Python 函数一样传递输入!
调用
< source >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None decoder_input_ids: np.ndarray | tf.Tensor | None = None decoder_attention_mask: np.ndarray | tf.Tensor | None = None decoder_position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None decoder_head_mask: np.ndarray | tf.Tensor | None = None cross_attn_head_mask: np.ndarray | tf.Tensor | None = None encoder_outputs: Optional[TFBaseModelOutput] = None past_key_values: Optional[tuple[tuple[Union[np.ndarray, tf.Tensor]]]] = None inputs_embeds: np.ndarray | tf.Tensor | None = None decoder_inputs_embeds: np.ndarray | tf.Tensor | None = None use_cache: Optional[bool] = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: bool = False ) → transformers.modeling_tf_outputs.TFSeq2SeqLMOutput 或 tuple(tf.Tensor)
参数
- input_ids (形状为
({0})的tf.Tensor) — 词汇表中输入序列标记的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.__call__()。
- attention_mask (形状为
({0})的tf.Tensor,可选) — 用于避免对填充标记索引执行注意力的掩码。掩码值选择范围为[0, 1]:- 1 表示未被掩盖的标记,
- 0 表示被掩盖的标记。
- decoder_input_ids (形状为
(batch_size, target_sequence_length)的tf.Tensor,可选) — 词汇表中解码器输入序列标记的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.__call__()。
Pegasus 使用
pad_token_id作为decoder_input_ids生成的起始标记。如果使用past_key_values,可选地只需输入最后一个decoder_input_ids(那些没有将其过去的键值状态提供给此模型的),形状为(batch_size, 1)。 - decoder_attention_mask (形状为
(batch_size, target_sequence_length)的tf.Tensor,可选) — 默认情况下会自动生成并忽略填充标记。在大多数使用场景下不建议手动设置此参数。 - decoder_position_ids (形状为
(batch_size, sequence_length)的tf.Tensor,可选) — 解码器输入序列中每个标记在位置嵌入中的索引。选择范围为[0, config.max_position_embeddings - 1]。 - head_mask (形状为
(encoder_layers, encoder_attention_heads)的tf.Tensor,可选) — 用于使编码器中注意力模块的选定头无效的掩码。掩码值选择范围为[0, 1]:- 1 表示头部未被掩盖,
- 0 表示头部被掩盖。
- decoder_head_mask (形状为
(decoder_layers, decoder_attention_heads)的tf.Tensor,可选) — 用于使解码器中注意力模块的选定头无效的掩码。掩码值选择范围为[0, 1]:- 1 表示头部未被掩盖,
- 0 表示头部被掩盖。
- cross_attn_head_mask (形状为
(decoder_layers, decoder_attention_heads)的tf.Tensor,可选) — 用于使交叉注意力模块的选定头无效的掩码。掩码值选择范围为[0, 1]:- 1 表示头部未被掩盖,
- 0 表示头部被掩盖。
- encoder_outputs (
tf.FloatTensor,可选) — 编码器最后一层输出的隐藏状态。用于解码器的交叉注意力。形状为(batch_size, sequence_length, hidden_size)的序列。 - past_key_values (长度为
config.n_layers的tuple[tuple[tf.Tensor]]) — 包含注意力块的预计算键值隐藏状态。可用于加速解码。如果使用past_key_values,用户可以选择仅输入最后一个decoder_input_ids(那些没有将其过去的键值状态提供给此模型的)形状为(batch_size, 1),而不是所有decoder_input_ids形状为(batch_size, sequence_length)。 - inputs_embeds (形状为
(batch_size, sequence_length, hidden_size)的tf.Tensor,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您希望对input_ids索引如何转换为相关向量有比模型内部嵌入查找矩阵更多的控制,这很有用。 - use_cache (
bool,可选,默认为True) — 如果设置为True,将返回past_key_values键值状态,可用于加速解码(参见past_key_values)。在训练期间设置为False,在生成期间设置为True。output_attentions (bool,可选):是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - output_attentions (
bool,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - output_hidden_states (
bool,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数只能在 eager 模式下使用,在 graph 模式下将使用配置中的值。 - return_dict (
bool,可选) — 是否返回 ModelOutput 而不是普通元组。此参数可在 eager 模式下使用,在 graph 模式下此值始终设置为True。 - training (
bool,可选,默认为False) — 是否在训练模式下使用模型(某些模块如 dropout 模块在训练和评估之间有不同的行为)。 - labels (形状为
(batch_size, sequence_length)的tf.tensor,可选) — 用于计算掩码语言建模损失的标签。索引应在[0, ..., config.vocab_size]范围内或为 -100(参见input_ids文档字符串)。索引设置为-100的标记将被忽略(掩码),损失仅针对标签在[0, ..., config.vocab_size]范围内的标记计算。
返回
transformers.modeling_tf_outputs.TFSeq2SeqLMOutput 或 tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFSeq2SeqLMOutput 或一个 tf.Tensor 元组(如果传递 return_dict=False 或 config.return_dict=False),包含取决于配置 (PegasusConfig) 和输入的各种元素。
-
loss (形状为
(n,)的tf.Tensor, 可选, 其中 n 是非掩码标签的数量,当提供labels时返回) — 语言建模损失。 -
logits (
tf.Tensorof shape(batch_size, sequence_length, config.vocab_size)) — 语言模型头部的预测分数(SoftMax 之前每个词汇标记的分数)。 -
past_key_values (
list[tf.Tensor],可选,当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tf.Tensor列表,每个张量形状为(2, batch_size, num_heads, sequence_length, embed_size_per_head))。包含解码器注意力块的预计算隐藏状态(键和值),可用于(参见
past_key_values输入)加速顺序解码。 -
decoder_hidden_states (
tuple(tf.Tensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) —tf.Tensor元组(一个用于嵌入输出 + 每个层输出一个),形状为(batch_size, sequence_length, hidden_size)。解码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
decoder_attentions (
tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) —tf.Tensor元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
-
cross_attentions (
tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) —tf.Tensor元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。
-
encoder_last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的tf.Tensor, 可选) — 模型编码器最后一层输出的隐藏状态序列。 -
encoder_hidden_states (
tuple(tf.Tensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) —tf.Tensor元组(一个用于嵌入输出 + 每个层输出一个),形状为(batch_size, sequence_length, hidden_size)。编码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
encoder_attentions (
tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) —tf.Tensor元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
TFPegasusForConditionalGeneration 的前向方法,覆盖了 __call__ 特殊方法。
尽管前向传播的配方需要在此函数中定义,但此后应调用 Module 实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
摘要示例
>>> from transformers import AutoTokenizer, TFPegasusForConditionalGeneration
>>> model = TFPegasusForConditionalGeneration.from_pretrained("google/pegasus-xsum")
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-xsum")
>>> ARTICLE_TO_SUMMARIZE = (
... "PG&E stated it scheduled the blackouts in response to forecasts for high winds "
... "amid dry conditions. The aim is to reduce the risk of wildfires. Nearly 800 thousand customers were "
... "scheduled to be affected by the shutoffs which were expected to last through at least midday tomorrow."
... )
>>> inputs = tokenizer(ARTICLE_TO_SUMMARIZE, max_length=1024, return_tensors="tf")
>>> # Generate Summary
>>> summary_ids = model.generate(input_ids)
>>> print(tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False))FlaxPegasusModel
class transformers.FlaxPegasusModel
< source >( config: PegasusConfig input_shape: tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )
参数
- config (PegasusConfig) — 带有模型所有参数的模型配置类。用配置文件初始化不会加载与模型相关的权重,只加载配置。请查看 from_pretrained() 方法来加载模型权重。
- dtype (
jax.numpy.dtype,可选,默认为jax.numpy.float32) — 计算的数据类型。可以是jax.numpy.float32、jax.numpy.float16(在 GPU 上)和jax.numpy.bfloat16(在 TPU 上)之一。这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推理。如果指定,所有计算都将使用给定的
dtype执行。请注意,这仅指定计算的数据类型,不影响模型参数的数据类型。
裸 Pegasus 模型 transformer 输出原始隐藏状态,顶部没有任何特定头部。此模型继承自 FlaxPreTrainedModel。请查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 Flax Linen flax.nn.Module 子类。将其用作常规 Flax 模块,并参阅 Flax 文档以了解所有与一般用法和行为相关的事项。
最后,此模型支持固有的 JAX 功能,例如
__call__
< source >( input_ids: Array attention_mask: typing.Optional[jax.Array] = None decoder_input_ids: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None position_ids: typing.Optional[jax.Array] = None decoder_position_ids: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) → transformers.modeling_flax_outputs.FlaxSeq2SeqModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (形状为
(batch_size, sequence_length)的jnp.ndarray) — 词汇表中输入序列 token 的索引。如果提供填充,默认情况下将忽略它。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.__call__()。
- attention_mask (形状为
(batch_size, sequence_length)的jnp.ndarray, 可选) — 掩码,用于避免对填充 token 索引执行注意力。掩码值在[0, 1]中选择:- 1 表示 未掩码 的 token,
- 0 表示 已掩码 的 token。
- decoder_input_ids (形状为
(batch_size, target_sequence_length)的jnp.ndarray, 可选) — 解码器输入序列 token 在词汇表中的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.__call__()。
- decoder_attention_mask (形状为
(batch_size, target_sequence_length)的jnp.ndarray, 可选) — 默认行为:生成一个忽略decoder_input_ids中填充 token 的张量。默认情况下也将使用因果掩码。如果想更改填充行为,应根据需要进行修改。有关默认策略的更多信息,请参阅论文中的图 1。
- position_ids (形状为
(batch_size, sequence_length)的numpy.ndarray, 可选) — 每个输入序列 token 在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。 - decoder_position_ids (形状为
(batch_size, sequence_length)的numpy.ndarray, 可选) — 每个解码器输入序列 token 在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。 - output_attentions (
bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的attentions。 - output_hidden_states (
bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的hidden_states。 - return_dict (
bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.modeling_flax_outputs.FlaxSeq2SeqModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxSeq2SeqModelOutput 或一个 torch.FloatTensor 元组(如果传递 return_dict=False 或 config.return_dict=False),根据配置(PegasusConfig)和输入包含各种元素。
-
last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的jnp.ndarray) — 模型解码器最后一层输出的隐藏状态序列。如果使用了
past_key_values,则只输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。 -
past_key_values (
tuple(tuple(jnp.ndarray)), 可选, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(jnp.ndarray)元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的额外张量。包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见
past_key_values输入)加速顺序解码。 -
decoder_hidden_states (
tuple(jnp.ndarray), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组(一个用于嵌入输出,一个用于每层输出)。解码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
decoder_attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
-
cross_attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。
-
encoder_last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的jnp.ndarray,可选) — 模型编码器最后一层输出的隐藏状态序列。 -
encoder_hidden_states (
tuple(jnp.ndarray), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组(一个用于嵌入输出,一个用于每层输出)。编码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
encoder_attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
FlaxPegasusPreTrainedModel forward 方法,覆盖 __call__ 特殊方法。
尽管前向传播的配方需要在此函数中定义,但此后应调用 Module 实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例
>>> from transformers import AutoTokenizer, FlaxPegasusModel
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-large")
>>> model = FlaxPegasusModel.from_pretrained("google/pegasus-large")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="jax")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state编码
< 来源 >( input_ids: Array attention_mask: typing.Optional[jax.Array] = None position_ids: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (形状为
(batch_size, sequence_length)的jnp.ndarray) — 词汇表中输入序列 token 的索引。如果提供填充,默认情况下将忽略它。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.__call__()。
- attention_mask (形状为
(batch_size, sequence_length)的jnp.ndarray, 可选) — 掩码,用于避免对填充 token 索引执行注意力。掩码值在[0, 1]中选择:- 1 表示 未掩码 的 token,
- 0 表示 已掩码 的 token。
- position_ids (形状为
(batch_size, sequence_length)的numpy.ndarray, 可选) — 每个输入序列 token 在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。 - output_attentions (
bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的attentions。 - output_hidden_states (
bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的hidden_states。 - return_dict (
bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或一个 torch.FloatTensor 元组(如果传递 return_dict=False 或 config.return_dict=False),根据配置(<class 'transformers.models.pegasus.configuration_pegasus.PegasusConfig'>)和输入包含各种元素。
-
last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的jnp.ndarray) — 模型最后一层输出的隐藏状态序列。 -
hidden_states (
tuple(jnp.ndarray), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组(一个用于嵌入输出,一个用于每层输出)。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> from transformers import AutoTokenizer, FlaxPegasusForConditionalGeneration
>>> model = FlaxPegasusForConditionalGeneration.from_pretrained("google/pegasus-large")
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-large")
>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)解码
< 来源 >( decoder_input_ids encoder_outputs encoder_attention_mask: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None decoder_position_ids: typing.Optional[jax.Array] = None past_key_values: typing.Optional[dict] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)
参数
- decoder_input_ids (形状为
(batch_size, target_sequence_length)的jnp.ndarray) — 解码器输入序列 token 在词汇表中的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.__call__()。
- encoder_outputs (
tuple(tuple(jnp.ndarray)) — 元组由 (last_hidden_state, 可选:hidden_states, 可选:attentions) 组成,其中last_hidden_state形状为(batch_size, sequence_length, hidden_size),可选) 是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。 - encoder_attention_mask (形状为
(batch_size, sequence_length)的jnp.ndarray, 可选) — 掩码,用于避免对填充 token 索引执行注意力。掩码值在[0, 1]中选择:- 1 表示 未掩码 的 token,
- 0 表示 已掩码 的 token。
- decoder_attention_mask (形状为
(batch_size, target_sequence_length)的jnp.ndarray, 可选) — 默认行为:生成一个忽略decoder_input_ids中填充 token 的张量。默认情况下也将使用因果掩码。如果想更改填充行为,应根据需要进行修改。有关默认策略的更多信息,请参阅论文中的图 1。
- decoder_position_ids (形状为
(batch_size, sequence_length)的numpy.ndarray, 可选) — 每个解码器输入序列 token 在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。 - past_key_values (
dict[str, np.ndarray], 可选, 由init_cache返回或在传递先前的past_key_values时返回) — 预先计算的隐藏状态(注意力块中的键和值)字典,可用于快速自回归解码。预先计算的键和值隐藏状态的形状为 [batch_size, max_length]。 - output_attentions (
bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的attentions。 - output_hidden_states (
bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参阅返回张量下的hidden_states。 - return_dict (
bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxBaseModelOutputWithPastAndCrossAttentions 或一个 torch.FloatTensor 元组(如果传递 return_dict=False 或 config.return_dict=False),根据配置(<class 'transformers.models.pegasus.configuration_pegasus.PegasusConfig'>)和输入包含各种元素。
-
last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的jnp.ndarray) — 模型最后一层输出的隐藏状态序列。如果使用了
past_key_values,则只输出形状为(batch_size, 1, hidden_size)的序列的最后一个隐藏状态。 -
past_key_values (
tuple(tuple(jnp.ndarray)), 可选, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(jnp.ndarray)元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量,并且如果config.is_encoder_decoder=True则可选地包含 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的额外张量。包含预先计算的隐藏状态(自注意力块中的键和值,如果
config.is_encoder_decoder=True则可选地包含交叉注意力块中的键和值),可用于加速顺序解码(参见past_key_values输入)。 -
hidden_states (
tuple(jnp.ndarray), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组(一个用于嵌入输出,一个用于每层输出)。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True和config.add_cross_attention=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。
示例
>>> import jax.numpy as jnp
>>> from transformers import AutoTokenizer, FlaxPegasusForConditionalGeneration
>>> model = FlaxPegasusForConditionalGeneration.from_pretrained("google/pegasus-large")
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-large")
>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)
>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id
>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> last_decoder_hidden_states = outputs.last_hidden_stateFlaxPegasusForConditionalGeneration
class transformers.FlaxPegasusForConditionalGeneration
< 来源 >( config: PegasusConfig input_shape: tuple = (1, 1) seed: int = 0 dtype: dtype = <class 'jax.numpy.float32'> _do_init: bool = True **kwargs )
参数
- config (PegasusConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不加载与模型关联的权重,只加载配置。请查看 from_pretrained() 方法以加载模型权重。
- dtype (
jax.numpy.dtype, 可选, 默认为jax.numpy.float32) — 计算的数据类型。可以是jax.numpy.float32、jax.numpy.float16(在 GPU 上)和jax.numpy.bfloat16(在 TPU 上)之一。这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推理。如果指定,所有计算都将使用给定的
dtype执行。请注意,这仅指定计算的 dtype,不影响模型参数的 dtype。
带语言建模头的 PEGASUS 模型。可用于摘要。此模型继承自 FlaxPreTrainedModel。查看超类文档,了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、修剪头部等)。
此模型也是 Flax Linen flax.nn.Module 子类。将其用作常规 Flax 模块,并参阅 Flax 文档以了解所有与一般用法和行为相关的事项。
最后,此模型支持固有的 JAX 功能,例如
__call__
< 来源 >( input_ids: Array attention_mask: typing.Optional[jax.Array] = None decoder_input_ids: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None position_ids: typing.Optional[jax.Array] = None decoder_position_ids: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) → transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (形状为
(batch_size, sequence_length)的jnp.ndarray) — 词汇表中输入序列 token 的索引。如果提供填充,默认情况下将忽略它。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.__call__()。
- attention_mask (形状为
(batch_size, sequence_length)的jnp.ndarray, 可选) — 掩码,用于避免对填充 token 索引执行注意力。掩码值在[0, 1]中选择:- 1 表示 未掩码 的 token,
- 0 表示 已掩码 的 token。
- decoder_input_ids (形状为
(batch_size, target_sequence_length)的jnp.ndarray, 可选) — 解码器输入序列 token 在词汇表中的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.__call__()。
- decoder_attention_mask (形状为
(batch_size, target_sequence_length)的jnp.ndarray, 可选) — 默认行为:生成一个忽略decoder_input_ids中填充 token 的张量。默认情况下也将使用因果掩码。如果想更改填充行为,应根据需要进行修改。有关默认策略的更多信息,请参阅论文中的图 1。
- position_ids (形状为
(batch_size, sequence_length)的numpy.ndarray, 可选) — 每个输入序列 token 在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。 - decoder_position_ids (形状为
(batch_size, sequence_length)的numpy.ndarray, 可选) — 每个解码器输入序列 token 在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。 - output_attentions (
bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参阅返回张量下的attentions。 - output_hidden_states (
bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参见返回张量下的hidden_states。 - return_dict (
bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。
返回
transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxSeq2SeqLMOutput 或一个 torch.FloatTensor 元组(如果传入 return_dict=False 或 config.return_dict=False),包含根据配置 (PegasusConfig) 和输入而定的各种元素。
-
logits (形状为
(batch_size, sequence_length, config.vocab_size)的jnp.ndarray) — 语言建模头的预测分数(SoftMax 之前每个词汇 token 的分数)。 -
past_key_values (
tuple(tuple(jnp.ndarray)), 可选, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(jnp.ndarray)元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的额外张量。包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见
past_key_values输入)加速顺序解码。 -
decoder_hidden_states (
tuple(jnp.ndarray), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组(一个用于嵌入输出,一个用于每层输出)。解码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
decoder_attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。解码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
-
cross_attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。解码器交叉注意力层的注意力权重,在注意力 softmax 之后,用于计算交叉注意力头中的加权平均。
-
encoder_last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的jnp.ndarray,可选) — 模型编码器最后一层输出的隐藏状态序列。 -
encoder_hidden_states (
tuple(jnp.ndarray), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组(一个用于嵌入输出,一个用于每层输出)。编码器在每一层输出时的隐藏状态以及初始嵌入输出。
-
encoder_attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。编码器的注意力权重,在注意力 softmax 之后,用于计算自注意力头中的加权平均。
FlaxPegasusPreTrainedModel forward 方法,覆盖 __call__ 特殊方法。
尽管前向传播的配方需要在此函数中定义,但此后应调用 Module 实例,而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
摘要示例
>>> from transformers import AutoTokenizer, FlaxPegasusForConditionalGeneration
>>> model = FlaxPegasusForConditionalGeneration.from_pretrained('google/pegasus-large')
>>> tokenizer = AutoTokenizer.from_pretrained('google/pegasus-large')
>>> ARTICLE_TO_SUMMARIZE = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer([ARTICLE_TO_SUMMARIZE], max_length=1024, return_tensors='np')
>>> # Generate Summary
>>> summary_ids = model.generate(inputs['input_ids']).sequences
>>> print(tokenizer.batch_decode(summary_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False))掩码填充示例
>>> from transformers import AutoTokenizer, FlaxPegasusForConditionalGeneration
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-large")
>>> TXT = "My friends are <mask> but they eat too many carbs."
>>> model = FlaxPegasusForConditionalGeneration.from_pretrained("google/pegasus-large")
>>> input_ids = tokenizer([TXT], return_tensors="np")["input_ids"]
>>> logits = model(input_ids).logits
>>> masked_index = (input_ids[0] == tokenizer.mask_token_id).nonzero().item()
>>> probs = jax.nn.softmax(logits[0, masked_index], axis=0)
>>> values, predictions = jax.lax.top_k(probs)
>>> tokenizer.decode(predictions).split()编码
< source >( input_ids: Array attention_mask: typing.Optional[jax.Array] = None position_ids: typing.Optional[jax.Array] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None train: bool = False params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) → transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
jnp.ndarray, 形状为(batch_size, sequence_length)) — 词汇表中输入序列标记的索引。如果提供填充,默认情况下将被忽略。索引可以使用 AutoTokenizer 获取。有关详细信息,请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
jnp.ndarray, 形状为(batch_size, sequence_length), 可选) — 掩码,以避免对填充标记索引执行注意力操作。掩码值在[0, 1]中选择:- 对于未被掩码的标记为 1,
- 对于被掩码的标记为 0。
- position_ids (
numpy.ndarray, 形状为(batch_size, sequence_length), 可选) — 每个输入序列标记在位置嵌入中的位置索引。在[0, config.max_position_embeddings - 1]范围内选择。 - output_attentions (
bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参见返回张量下的attentions。 - output_hidden_states (
bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参见返回张量下的hidden_states。 - return_dict (
bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。
返回
transformers.modeling_flax_outputs.FlaxBaseModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxBaseModelOutput 或一个 torch.FloatTensor 元组(如果传递 return_dict=False 或 config.return_dict=False),根据配置(<class 'transformers.models.pegasus.configuration_pegasus.PegasusConfig'>)和输入包含各种元素。
-
last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的jnp.ndarray) — 模型最后一层输出的隐藏状态序列。 -
hidden_states (
tuple(jnp.ndarray), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组(一个用于嵌入输出,一个用于每层输出)。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> from transformers import AutoTokenizer, FlaxPegasusForConditionalGeneration
>>> model = FlaxPegasusForConditionalGeneration.from_pretrained("google/pegasus-large")
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-large")
>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)解码
< source >( decoder_input_ids encoder_outputs encoder_attention_mask: typing.Optional[jax.Array] = None decoder_attention_mask: typing.Optional[jax.Array] = None decoder_position_ids: typing.Optional[jax.Array] = None past_key_values: typing.Optional[dict] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None deterministic: bool = True params: typing.Optional[dict] = None dropout_rng: <function PRNGKey at 0x7effc7ad3a30> = None ) → transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)
参数
- decoder_input_ids (
jnp.ndarray, 形状为(batch_size, target_sequence_length)) — 解码器输入序列标记在词汇表中的索引。索引可以使用 AutoTokenizer 获取。有关详细信息,请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- encoder_outputs (
tuple(tuple(jnp.ndarray)) — 元组包含 (last_hidden_state, 可选:hidden_states, 可选:attentions)last_hidden_state的形状为(batch_size, sequence_length, hidden_size),可选) 是编码器最后一层输出的隐藏状态序列。在解码器的交叉注意力中使用。 - encoder_attention_mask (
jnp.ndarray, 形状为(batch_size, sequence_length), 可选) — 掩码,以避免对填充标记索引执行注意力操作。掩码值在[0, 1]中选择:- 对于未被掩码的标记为 1,
- 对于被掩码的标记为 0。
- decoder_attention_mask (
jnp.ndarray, 形状为(batch_size, target_sequence_length), 可选) — 默认行为:生成一个忽略decoder_input_ids中填充标记的张量。默认情况下还将使用因果掩码。如果要更改填充行为,应根据需要进行修改。有关默认策略的更多信息,请参阅论文中的图 1。
- decoder_position_ids (
numpy.ndarray, 形状为(batch_size, sequence_length), 可选) — 每个解码器输入序列标记在位置嵌入中的位置索引。在[0, config.max_position_embeddings - 1]范围内选择。 - past_key_values (
dict[str, np.ndarray], 可选, 由init_cache返回或当传入之前的past_key_values时) — 预计算的隐藏状态(注意力块中的键和值)字典,可用于快速自回归解码。预计算的键和值隐藏状态的形状为 [batch_size, max_length]。 - output_attentions (
bool, 可选) — 是否返回所有注意力层的注意力张量。更多详细信息请参见返回张量下的attentions。 - output_hidden_states (
bool, 可选) — 是否返回所有层的隐藏状态。更多详细信息请参见返回张量下的hidden_states。 - return_dict (
bool, 可选) — 是否返回 ModelOutput 而不是普通的元组。
返回
transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)
一个 transformers.modeling_flax_outputs.FlaxCausalLMOutputWithCrossAttentions 或一个 torch.FloatTensor 元组(如果传入 return_dict=False 或 config.return_dict=False),包含根据配置 (<class 'transformers.models.pegasus.configuration_pegasus.PegasusConfig'>) 和输入而定的各种元素。
-
logits (形状为
(batch_size, sequence_length, config.vocab_size)的jnp.ndarray) — 语言建模头的预测分数(SoftMax 之前每个词汇 token 的分数)。 -
hidden_states (
tuple(jnp.ndarray), 可选, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的jnp.ndarray元组(一个用于嵌入输出,一个用于每层输出)。模型在每个层输出的隐藏状态加上初始嵌入输出。
-
attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
-
cross_attentions (
tuple(jnp.ndarray), 可选, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的jnp.ndarray元组(每层一个)。注意力 softmax 后的交叉注意力权重,用于计算交叉注意力头中的加权平均。
-
past_key_values (
tuple(tuple(jnp.ndarray)), 可选, 当传入use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的jnp.ndarray元组,每个元组包含自注意力和交叉注意力层的缓存键值状态(如果模型用于编码器-解码器设置)。仅当config.is_decoder = True时相关。包含预先计算的隐藏状态(注意力块中的键和值),可用于(参见
past_key_values输入)加速顺序解码。
示例
>>> import jax.numpy as jnp
>>> from transformers import AutoTokenizer, FlaxPegasusForConditionalGeneration
>>> model = FlaxPegasusForConditionalGeneration.from_pretrained("google/pegasus-large")
>>> tokenizer = AutoTokenizer.from_pretrained("google/pegasus-large")
>>> text = "My friends are cool but they eat too many carbs."
>>> inputs = tokenizer(text, max_length=1024, return_tensors="np")
>>> encoder_outputs = model.encode(**inputs)
>>> decoder_start_token_id = model.config.decoder_start_token_id
>>> decoder_input_ids = jnp.ones((inputs.input_ids.shape[0], 1), dtype="i4") * decoder_start_token_id
>>> outputs = model.decode(decoder_input_ids, encoder_outputs)
>>> logits = outputs.logits