Transformers 文档

UMT5

Transformers

加入 Hugging Face 社区

并获得增强的文档体验

在模型、数据集和 Spaces 上进行协作

通过加速推理获得更快的示例

切换文档主题

开始使用

UMT5

概述

UMT5 模型由 Hyung Won Chung、Xavier Garcia、Adam Roberts、Yi Tay、Orhan Firat、Sharan Narang 和 Noah Constant 在 UniMax: Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining 中提出。

论文摘要如下：

预训练多语言大型语言模型通常使用启发式基于温度的采样来平衡不同语言。然而，以前的工作尚未系统地评估不同预训练语言分布在不同模型规模下的有效性。在本文中，我们提出了一种新的采样方法，UniMax，它通过明确限制每种语言语料库的重复次数，在确保更均匀覆盖头部语言的同时，减轻了对尾部语言的过拟合。我们针对一系列多语言基准测试，在不同模型规模下，对各种采样策略进行了一系列广泛的消融实验。我们发现 UniMax 优于标准的基于温度的采样，并且随着规模的增加，其优势持续存在。作为我们的贡献的一部分，我们发布了：(i) 一个改进和刷新的 mC4 多语言语料库，包含 107 种语言的 29 万亿字符，以及 (ii) 一套使用 UniMax 采样训练的预训练 umT5 模型检查点。

Google 发布了以下变体：

此模型由 agemagician 和 stefan-it 贡献。原始代码可在此处找到。

使用技巧

UMT5 仅在不包含任何监督训练的 mC4 上进行预训练。因此，与原始 T5 模型不同，此模型在使用下游任务之前必须进行微调。
由于 umT5 是以无监督方式预训练的，因此在单任务微调期间使用任务前缀没有实际优势。如果您正在进行多任务微调，则应使用前缀。

与 mT5 的区别？

UmT5 基于 mT5，具有非共享的相对位置偏置，该偏置是为每个层计算的。这意味着模型为每个层设置了 has_relative_bias。转换脚本也不同，因为该模型是以 t5x 的最新检查点格式保存的。

用法示例

>>> from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

>>> model = AutoModelForSeq2SeqLM.from_pretrained("google/umt5-small")
>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")

>>> inputs = tokenizer(
...     "A <extra_id_0> walks into a bar and orders a <extra_id_1> with <extra_id_2> pinch of <extra_id_3>.",
...     return_tensors="pt",
... )
>>> outputs = model.generate(**inputs)
>>> print(tokenizer.batch_decode(outputs))
['<pad><extra_id_0>nyone who<extra_id_1> drink<extra_id_2> a<extra_id_3> alcohol<extra_id_4> A<extra_id_5> A. This<extra_id_6> I<extra_id_7><extra_id_52><extra_id_53></s>']

请参阅 T5 的文档页面，了解更多技巧、代码示例和笔记本。

UMT5Config

类 transformers.UMT5Config

< 来源 >

( vocab_size = 250112 d_model = 512 d_kv = 64 d_ff = 1024 num_layers = 8 num_decoder_layers = None num_heads = 6 relative_attention_num_buckets = 32 relative_attention_max_distance = 128 dropout_rate = 0.1 layer_norm_epsilon = 1e-06 initializer_factor = 1.0 feed_forward_proj = 'gated-gelu' is_encoder_decoder = True use_cache = True tokenizer_class = 'T5Tokenizer' tie_word_embeddings = True pad_token_id = 0 eos_token_id = 1 decoder_start_token_id = 0 classifier_dropout = 0.0 **kwargs )

参数

vocab_size (int, 可选, 默认为 250112) — UMT5 模型的词汇表大小。定义了调用 UMT5Model 或 TFUMT5Model 时传入的 inputs_ids 可以表示的不同 token 数量。
d_model (int, 可选, 默认为 512) — 编码器层和池化层的大小。
d_kv (int, 可选, 默认为 64) — 每个注意力头的键、查询、值投影的大小。d_kv 必须等于 d_model // num_heads。
d_ff (int, 可选, 默认为 1024) — 每个 UMT5Block 中间前馈层的大小。
num_layers (int, 可选, 默认为 8) — Transformer 编码器中的隐藏层数量。
num_decoder_layers (int, 可选) — Transformer 解码器中的隐藏层数量。如果未设置，将使用与 num_layers 相同的值。
num_heads (int, 可选, 默认为 6) — Transformer 编码器中每个注意力层的注意力头数量。
relative_attention_num_buckets (int, 可选, 默认为 32) — 用于每个注意力层的桶的数量。
relative_attention_max_distance (int, 可选, 默认为 128) — 用于桶分离的更长序列的最大距离。
dropout_rate (float, 可选, 默认为 0.1) — 所有 dropout 层的比率。
classifier_dropout (float, 可选, 默认为 0.0) — 分类器的 dropout 比率。
layer_norm_eps (float, 可选, 默认为 1e-6) — 层归一化层使用的 epsilon。
initializer_factor (float, 可选, 默认为 1) — 初始化所有权重矩阵的因子（应保持为 1，内部用于初始化测试）。
feed_forward_proj (string, 可选, 默认为 "gated-gelu") — 要使用的前馈层类型。应为 "relu" 或 "gated-gelu" 之一。
use_cache (bool, 可选, 默认为 True) — 模型是否应返回最后一个键/值注意力（并非所有模型都使用）。

这是存储 UMT5Model 配置的配置类。它用于根据指定参数实例化 UMT5 模型，定义模型架构。使用默认值实例化配置将生成与 UMT5 google/umt5-small 架构相似的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。有关更多信息，请参阅 PretrainedConfig 的文档。

UMT5Model

类 transformers.UMT5Model

< 来源 >

( config )

参数

config (UMT5Model) — 模型配置类，包含模型的所有参数。使用配置文件初始化不加载与模型关联的权重，只加载配置。请查看 from_pretrained() 方法来加载模型权重。

UMT5 裸模型，输出原始隐藏状态，顶部没有任何特定头部。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档了解所有与通用使用和行为相关的事项。

forward

< 来源 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None decoder_head_mask: typing.Optional[torch.FloatTensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None past_key_values: typing.Optional[tuple[tuple[torch.FloatTensor]]] = None inputs_embeds: typing.Optional[torch.Tensor] = None decoder_inputs_embeds: typing.Optional[torch.Tensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 token 的索引。UMT5 是一个带有相对位置嵌入的模型，因此您应该能够在输入两侧都填充。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？

要了解如何为预训练准备 input_ids，请参阅 UMT5 训练。
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 用于避免对填充 token 索引执行注意力操作的掩码。掩码值选自 [0, 1]：
- 1 表示 未被掩盖 的 token，
- 0 表示 被掩盖 的 token。
什么是注意力掩码？
decoder_input_ids (torch.LongTensor，形状为 (batch_size, target_sequence_length)，可选) — 词汇表中解码器输入序列 token 的索引。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是解码器输入 ID？

UMT5 使用 pad_token_id 作为 decoder_input_ids 生成的起始 token。如果使用 past_key_values，可以选择只输入最后一个 decoder_input_ids（那些没有将过去的键值状态传递给此模型的 token），形状为 (batch_size, 1)，而不是所有 input_ids，形状为 (batch_size, sequence_length)。

要了解如何为预训练准备 decoder_input_ids，请参阅 UMT5 训练。
decoder_attention_mask (torch.BoolTensor，形状为 (batch_size, target_sequence_length)，可选) — 默认行为：生成一个忽略 decoder_input_ids 中填充 token 的张量。默认情况下也会使用因果掩码。
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头无效的掩码。掩码值选自 [0, 1]：
- 1 表示头部 未被掩盖，
- 0 表示头部 被掩盖。
decoder_head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使解码器中自注意力模块的选定头无效的掩码。掩码值选自 [0, 1]：
- 1 表示头部 未被掩盖，
- 0 表示头部 被掩盖。
cross_attn_head_mask (torch.Tensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使解码器中交叉注意力模块的选定头无效的掩码。掩码值选自 [0, 1]：
- 1 表示头部 未被掩盖，
- 0 表示头部 被掩盖。
encoder_outputs (tuple[tuple[torch.FloatTensor]]，可选) — 元组由 (last_hidden_state，可选：hidden_states，可选：attentions) 组成，其中 last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size)，可选) 是编码器最后一层输出的隐藏状态序列。在解码器的交叉注意力中会用到。
past_key_values (tuple[tuple[torch.FloatTensor]], 可选) — 预计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速序列解码。这通常由模型在解码的先前阶段返回的 past_key_values 组成，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- 一个 Cache 实例，请参阅我们的 kv 缓存指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量）。这也被称为传统缓存格式。
模型将输出与作为输入提供的缓存格式相同的缓存格式。如果未传递 past_key_values，将返回传统缓存格式。

如果使用 past_key_values，用户可以选择只输入最后一个 input_ids（那些没有将过去的键值状态传递给此模型的 token），形状为 (batch_size, 1)，而不是所有 input_ids，形状为 (batch_size, sequence_length)。
inputs_embeds (torch.Tensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望对如何将 input_ids 索引转换为相关向量具有比模型内部嵌入查找矩阵更多的控制权，则此功能很有用。
decoder_inputs_embeds (torch.Tensor，形状为 (batch_size, target_sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 decoder_input_ids。如果使用 past_key_values，可以选择只输入最后一个 decoder_inputs_embeds（参见 past_key_values）。如果您希望对如何将 decoder_input_ids 索引转换为相关向量具有比模型内部嵌入查找矩阵更多的控制权，则此功能很有用。

如果 decoder_input_ids 和 decoder_inputs_embeds 都未设置，则 decoder_inputs_embeds 将取 inputs_embeds 的值。
use_cache (bool, 可选) — 如果设置为 True，将返回 past_key_values 键值状态，可用于加速解码（参见 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 描述输入序列 token 在序列中位置的索引。与 position_ids 相反，此张量不受填充影响。它用于在正确位置更新缓存并推断完整的序列长度。

transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqModelOutput 或一个 torch.FloatTensor 元组（如果传递了 return_dict=False 或 config.return_dict=False），包含根据配置 (UMT5Config) 和输入的不同元素。

last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)) — 模型解码器最后一层输出的隐藏状态序列。

如果使用了 past_key_values，则只输出形状为 (batch_size, 1, hidden_size) 的序列的最后一个隐藏状态。
past_key_values (EncoderDecoderCache, 可选，当传递 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 EncoderDecoderCache 实例。有关更多详细信息，请参阅我们的 kv 缓存指南。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层的输出一个），形状为 (batch_size, sequence_length, hidden_size)。

解码器在每个层输出的隐藏状态，加上可选的初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均。
encoder_last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层输出的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层的输出一个），形状为 (batch_size, sequence_length, hidden_size)。

编码器在每个层输出的隐藏状态，加上可选的初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。

UMT5Model 的 forward 方法，重写了 __call__ 特殊方法。

虽然前向传递的配方需要在此函数中定义，但之后应该调用 Module 实例，而不是此函数，因为前者负责运行预处理和后处理步骤，而后者则默默地忽略它们。

示例

>>> from transformers import AutoTokenizer, UMT5Model

>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> model = UMT5Model.from_pretrained("google/umt5-small")

>>> input_ids = tokenizer(
...     "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids  # Batch size 1
>>> decoder_input_ids = tokenizer("Studies show that", return_tensors="pt").input_ids  # Batch size 1

>>> # preprocess: Prepend decoder_input_ids with start token which is pad token for UMT5Model.
>>> # This is not needed for torch's UMT5ForConditionalGeneration as it does this internally using labels arg.
>>> decoder_input_ids = model._shift_right(decoder_input_ids)

>>> # forward pass
>>> outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
>>> last_hidden_states = outputs.last_hidden_state

UMT5ForConditionalGeneration

class transformers.UMT5ForConditionalGeneration

< 源文件 >

( config )

参数

config (UMT5ForConditionalGeneration) — 模型的配置类，包含模型的所有参数。用配置文件初始化不会加载与模型相关的权重，只加载配置。请查阅 from_pretrained() 方法来加载模型权重。

顶部带有 语言建模 头部的 UMT5 模型。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档了解所有与通用使用和行为相关的事项。

forward

< 源文件 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None decoder_head_mask: typing.Optional[torch.FloatTensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.Tensor]]] = None past_key_values: typing.Optional[tuple[tuple[torch.Tensor]]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None cache_position: typing.Optional[torch.LongTensor] = None ) → transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 token 的索引。UMT5 是一个带有相对位置嵌入的模型，因此您应该能够在输入两侧都填充。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？

要了解如何为预训练准备 input_ids，请参阅 UMT5 训练。
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 用于避免对填充 token 索引执行注意力操作的掩码。掩码值选自 [0, 1]：
- 1 表示 未被掩盖 的 token，
- 0 表示 被掩盖 的 token。
什么是注意力掩码？
decoder_input_ids (torch.LongTensor，形状为 (batch_size, target_sequence_length)，可选) — 词汇表中解码器输入序列 token 的索引。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是解码器输入 ID？

UMT5 使用 pad_token_id 作为 decoder_input_ids 生成的起始 token。如果使用 past_key_values，可以选择只输入最后一个 decoder_input_ids（那些没有将过去的键值状态传递给此模型的 token），形状为 (batch_size, 1)，而不是所有 input_ids，形状为 (batch_size, sequence_length)。

要了解如何为预训练准备 decoder_input_ids，请参阅 UMT5 训练。
decoder_attention_mask (torch.BoolTensor，形状为 (batch_size, target_sequence_length)，可选) — 默认行为：生成一个忽略 decoder_input_ids 中填充 token 的张量。默认情况下也会使用因果掩码。
head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使自注意力模块的选定头无效的掩码。掩码值选自 [0, 1]：
- 1 表示头部 未被掩盖，
- 0 表示头部 被掩盖。
decoder_head_mask (torch.FloatTensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使解码器中自注意力模块的选定头无效的掩码。掩码值选自 [0, 1]：
- 1 表示头部 未被掩盖，
- 0 表示头部 被掩盖。
cross_attn_head_mask (torch.Tensor，形状为 (num_heads,) 或 (num_layers, num_heads)，可选) — 用于使解码器中交叉注意力模块的选定头无效的掩码。掩码值选自 [0, 1]：
- 1 表示头部 未被掩盖，
- 0 表示头部 被掩盖。
encoder_outputs (tuple[tuple[torch.Tensor]], 可选) — 元组由 (last_hidden_state, 可选: hidden_states, 可选: attentions) 组成，其中 last_hidden_state 的形状为 (batch_size, sequence_length, hidden_size)，可选) 是编码器最后一层输出的隐藏状态序列。在解码器的交叉注意力中会用到。
past_key_values (tuple[tuple[torch.Tensor]], 可选) — 预计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于加速序列解码。这通常由模型在解码的先前阶段返回的 past_key_values 组成，当 use_cache=True 或 config.use_cache=True 时。

允许两种格式：
- 一个 Cache 实例，请参阅我们的 kv 缓存指南；
- 长度为 config.n_layers 的 tuple(torch.FloatTensor) 元组，每个元组包含 2 个形状为 (batch_size, num_heads, sequence_length, embed_size_per_head) 的张量）。这也被称为传统缓存格式。
模型将输出与作为输入提供的缓存格式相同的缓存格式。如果未传递 past_key_values，将返回传统缓存格式。

如果使用 past_key_values，用户可以选择只输入最后一个 input_ids（那些没有将过去的键值状态传递给此模型的 token），形状为 (batch_size, 1)，而不是所有 input_ids，形状为 (batch_size, sequence_length)。
inputs_embeds (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 input_ids。如果您希望对如何将 input_ids 索引转换为相关向量具有比模型内部嵌入查找矩阵更多的控制权，则此功能很有用。
decoder_inputs_embeds (torch.FloatTensor，形状为 (batch_size, target_sequence_length, hidden_size)，可选) — 可选地，您可以选择直接传递嵌入表示，而不是传递 decoder_input_ids。如果使用 past_key_values，可以选择只输入最后一个 decoder_inputs_embeds（参见 past_key_values）。如果您希望对如何将 decoder_input_ids 索引转换为相关向量具有比模型内部嵌入查找矩阵更多的控制权，则此功能很有用。

如果 decoder_input_ids 和 decoder_inputs_embeds 都未设置，则 decoder_inputs_embeds 将取 inputs_embeds 的值。
labels (torch.LongTensor，形状为 (batch_size,)，可选) — 用于计算序列分类/回归损失的标签。索引应在 [-100, 0, ..., config.vocab_size - 1] 范围内。所有设置为 -100 的标签都会被忽略（掩盖），损失仅针对 [0, ..., config.vocab_size] 范围内的标签计算。
use_cache (bool, 可选) — 如果设置为 True，将返回 past_key_values 键值状态，可用于加速解码（参见 past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参见返回张量下的 attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参见返回张量下的 hidden_states。
return_dict (bool, 可选) — 是否返回 ModelOutput 而不是普通元组。
cache_position (torch.LongTensor，形状为 (sequence_length)，可选) — 描述输入序列 token 在序列中位置的索引。与 position_ids 相反，此张量不受填充影响。它用于在正确位置更新缓存并推断完整的序列长度。

transformers.modeling_outputs.Seq2SeqLMOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqLMOutput 或一个 torch.FloatTensor 元组（如果传递了 return_dict=False 或 config.return_dict=False），包含根据配置 (UMT5Config) 和输入的不同元素。

loss (torch.FloatTensor，形状为 (1,)，可选，当提供 labels 时返回) — 语言建模损失。
logits (形状为 (batch_size, sequence_length, config.vocab_size) 的 torch.FloatTensor) — 语言建模头部的预测分数（SoftMax 之前的每个词汇标记的分数）。
past_key_values (EncoderDecoderCache, 可选，当传递 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 EncoderDecoderCache 实例。有关更多详细信息，请参阅我们的 kv 缓存指南。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层的输出一个），形状为 (batch_size, sequence_length, hidden_size)。

解码器在每一层输出时的隐藏状态以及初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均。
encoder_last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层输出的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层的输出一个），形状为 (batch_size, sequence_length, hidden_size)。

编码器在每一层输出时的隐藏状态以及初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。

UMT5ForConditionalGeneration 的 forward 方法，重写了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, UMT5ForConditionalGeneration

>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> model = UMT5ForConditionalGeneration.from_pretrained("google/umt5-small")

>>> # training
>>> input_ids = tokenizer("The <extra_id_0> walks in <extra_id_1> park", return_tensors="pt").input_ids
>>> labels = tokenizer("<extra_id_0> cute dog <extra_id_1> the <extra_id_2>", return_tensors="pt").input_ids
>>> outputs = model(input_ids=input_ids, labels=labels)
>>> loss = outputs.loss
>>> logits = outputs.logits

>>> # inference
>>> input_ids = tokenizer("Studies have shown that <extra_id_0> good for you", return_tensors="pt").input_ids
>>> outputs = model.generate(input_ids)
>>> tokenizer.decode(outputs[0], skip_special_tokens=True)

UMT5EncoderModel

class transformers.UMT5EncoderModel

< 源文件 >

( config )

参数

config (UMT5EncoderModel) — 模型的配置类，包含模型的所有参数。用配置文件初始化不会加载与模型相关的权重，只加载配置。请查阅 from_pretrained() 方法来加载模型权重。

UMT5 裸模型，输出原始隐藏状态，顶部没有任何特定头部。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档了解所有与通用使用和行为相关的事项。

forward

< 源文件 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)

参数

input_ids (torch.LongTensor，形状为 (batch_size, sequence_length)) — 词汇表中输入序列 token 的索引。UMT5 是一个带有相对位置嵌入的模型，因此您应该能够在输入两侧都填充。

索引可以使用 AutoTokenizer 获取。有关详细信息，请参见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

要了解如何为预训练准备 input_ids，请参阅 UMT5 训练。
attention_mask (torch.FloatTensor，形状为 (batch_size, sequence_length)，可选) — 用于避免对填充 token 索引执行注意力操作的掩码。掩码值选自 [0, 1]：
- 1 表示 未被掩盖 的 token，
- 0 表示 被掩盖 的 token。
什么是注意力掩码？
head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.FloatTensor，可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor，可选) — 可选地，你可以选择直接传递嵌入表示，而不是传递 input_ids。如果你想对如何将 input_ids 索引转换为相关向量有比模型内部嵌入查找矩阵更多的控制，这将很有用。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通的元组。

transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.BaseModelOutput 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包含根据配置（UMT5Config）和输入的不同元素。

last_hidden_state (torch.FloatTensor, 形状为 (batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出）。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每个层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

UMT5EncoderModel 的 forward 方法，重写了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, UMT5EncoderModel

>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> model = UMT5EncoderModel.from_pretrained("google/umt5-small")
>>> input_ids = tokenizer(
...     "Studies have been shown that owning a dog is good for you", return_tensors="pt"
... ).input_ids  # Batch size 1
>>> outputs = model(input_ids=input_ids)
>>> last_hidden_states = outputs.last_hidden_state

UMT5ForSequenceClassification

class transformers.UMT5ForSequenceClassification

< source 源码 >

( config: UMT5Config )

参数

config (UMT5Config) — 模型配置类，包含模型的所有参数。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法以加载模型权重。

UMT5 模型，其上带有序列分类/头（在池化输出之上有一个线性层），例如用于 GLUE 任务。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档了解所有与通用使用和行为相关的事项。

forward

< source 源码 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.Tensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.Tensor] = None decoder_head_mask: typing.Optional[torch.Tensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[list[torch.FloatTensor]] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.Seq2SeqSequenceClassifierOutput 或 tuple(torch.FloatTensor)

参数

input_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor) — 词汇表中输入序列 token 的索引。UMT5 是一个带有相对位置嵌入的模型，因此你应该能够在输入的左右两侧进行填充。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？

要了解如何为预训练准备 input_ids，请查看 UMT5 训练。
attention_mask (形状为 (batch_size, sequence_length) 的 torch.Tensor，可选) — 避免对填充 token 索引执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 表示 token 未被掩码，
- 0 表示 token 被掩码。
什么是注意力掩码？
decoder_input_ids (形状为 (batch_size, target_sequence_length) 的 torch.LongTensor，可选) — 词汇表中解码器输入序列 token 的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是解码器输入 ID？

UMT5 使用 pad_token_id 作为 decoder_input_ids 生成的起始 token。如果使用 past_key_values，可选地只需输入最后的 decoder_input_ids（参阅 past_key_values）。

要了解如何为预训练准备 decoder_input_ids，请查看 UMT5 训练。
decoder_attention_mask (形状为 (batch_size, target_sequence_length) 的 torch.BoolTensor，可选) — 默认行为：生成一个忽略 decoder_input_ids 中填充 token 的张量。默认情况下也将使用因果掩码。
head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.Tensor，可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
decoder_head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.FloatTensor，可选) — 用于使解码器中自注意力模块的选定头部无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
cross_attn_head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.Tensor，可选) — 用于使解码器中交叉注意力模块的选定头部无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
encoder_outputs (list[torch.FloatTensor]，可选) — 元组包含（last_hidden_state，可选：hidden_states，可选：attentions）形状为 (batch_size, sequence_length, hidden_size) 的 last_hidden_state，是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor，可选) — 可选地，你可以选择直接传递嵌入表示，而不是传递 input_ids。如果你想对如何将 input_ids 索引转换为相关向量有比模型内部嵌入查找矩阵更多的控制，这将很有用。
decoder_inputs_embeds (形状为 (batch_size, target_sequence_length, hidden_size) 的 torch.FloatTensor，可选) — 可选地，你可以选择直接传递嵌入表示，而不是传递 decoder_input_ids。如果使用 past_key_values，可选地只需输入最后的 decoder_inputs_embeds（参阅 past_key_values）。如果你想对如何将 decoder_input_ids 索引转换为相关向量有比模型内部嵌入查找矩阵更多的控制，这将很有用。

如果 decoder_input_ids 和 decoder_inputs_embeds 都未设置，则 decoder_inputs_embeds 将采用 inputs_embeds 的值。
labels (形状为 (batch_size,) 的 torch.LongTensor，可选) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。如果 config.num_labels > 1，则计算分类损失（交叉熵）。
use_cache (bool，可选) — 如果设置为 True，则返回 past_key_values 键值状态，可用于加速解码（参阅 past_key_values）。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通的元组。

transformers.modeling_outputs.Seq2SeqSequenceClassifierOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.Seq2SeqSequenceClassifierOutput 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包含根据配置（UMT5Config）和输入的不同元素。

loss (形状为 (1,) 的 torch.FloatTensor，可选，当提供 label 时返回) — 分类 (如果 config.num_labels==1 则为回归) 损失。
logits (形状为 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分类（如果 config.num_labels==1，则为回归）分数（SoftMax 之前）。
past_key_values (EncoderDecoderCache, 可选，当传递 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 EncoderDecoderCache 实例。有关更多详细信息，请参阅我们的 kv 缓存指南。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层的输出一个），形状为 (batch_size, sequence_length, hidden_size)。

解码器在每一层输出时的隐藏状态以及初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均。
encoder_last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层输出的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层的输出一个），形状为 (batch_size, sequence_length, hidden_size)。

编码器在每一层输出时的隐藏状态以及初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。

UMT5ForSequenceClassification 的 forward 方法，重写了 __call__ 特殊方法。

单标签分类示例

>>> import torch
>>> from transformers import AutoTokenizer, UMT5ForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> model = UMT5ForSequenceClassification.from_pretrained("google/umt5-small")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
...

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = UMT5ForSequenceClassification.from_pretrained("google/umt5-small", num_labels=num_labels)

>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

多标签分类示例

>>> import torch
>>> from transformers import AutoTokenizer, UMT5ForSequenceClassification

>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> model = UMT5ForSequenceClassification.from_pretrained("google/umt5-small", problem_type="multi_label_classification")

>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]

>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = UMT5ForSequenceClassification.from_pretrained(
...     "google/umt5-small", num_labels=num_labels, problem_type="multi_label_classification"
... )

>>> labels = torch.sum(
...     torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).loss

UMT5ForTokenClassification

class transformers.UMT5ForTokenClassification

< source 源码 >

( config: UMT5Config )

参数

config (UMT5Config) — 模型配置类，包含模型的所有参数。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法以加载模型权重。

Umt5 transformer，其上带有 token 分类头（在隐藏状态输出之上有一个线性层），例如用于命名实体识别 (NER) 任务。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档了解所有与通用使用和行为相关的事项。

forward

< source 源码 >

( input_ids: typing.Optional[torch.Tensor] = None attention_mask: typing.Optional[torch.Tensor] = None head_mask: typing.Optional[torch.Tensor] = None inputs_embeds: typing.Optional[torch.Tensor] = None labels: typing.Optional[torch.Tensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

参数

input_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor) — 词汇表中输入序列 token 的索引。UMT5 是一个带有相对位置嵌入的模型，因此你应该能够在输入的左右两侧进行填充。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？

要了解如何为预训练准备 input_ids，请查看 UMT5 训练。
attention_mask (形状为 (batch_size, sequence_length) 的 torch.Tensor，可选) — 避免对填充 token 索引执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 表示 token 未被掩码，
- 0 表示 token 被掩码。
什么是注意力掩码？
head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.Tensor，可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
inputs_embeds (形状为 (batch_size, sequence_length, hidden_size) 的 torch.Tensor，可选) — 可选地，你可以选择直接传递嵌入表示，而不是传递 input_ids。如果你想对如何将 input_ids 索引转换为相关向量有比模型内部嵌入查找矩阵更多的控制，这将很有用。
labels (形状为 (batch_size, sequence_length) 的 torch.LongTensor，可选) — 用于计算 token 分类损失的标签。索引应在 [0, ..., config.num_labels - 1] 范围内。
output_attentions (bool，可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息，请参阅返回张量下的 attentions。
output_hidden_states (bool，可选) — 是否返回所有层的隐藏状态。有关更多详细信息，请参阅返回张量下的 hidden_states。
return_dict (bool，可选) — 是否返回 ModelOutput 而不是普通的元组。

transformers.modeling_outputs.TokenClassifierOutput 或 tuple(torch.FloatTensor)

一个 transformers.modeling_outputs.TokenClassifierOutput 或一个 torch.FloatTensor 元组（如果传递 return_dict=False 或当 config.return_dict=False 时），包含根据配置（UMT5Config）和输入的不同元素。

loss (形状为 (1,) 的 torch.FloatTensor，可选，当提供 labels 时返回) — 分类损失。
logits (形状为 (batch_size, sequence_length, config.num_labels) 的 torch.FloatTensor) — 分类分数（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor)，可选，当传递 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组（如果模型有嵌入层，则包括嵌入层的输出，加上每个层的输出）。

模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor)，可选，当传递 output_attentions=True 或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组（每个层一个）。

注意力 softmax 后的注意力权重，用于计算自注意力头中的加权平均值。

UMT5ForTokenClassification 的 forward 方法，重写了 __call__ 特殊方法。

示例

>>> from transformers import AutoTokenizer, UMT5ForTokenClassification
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> model = UMT5ForTokenClassification.from_pretrained("google/umt5-small")

>>> inputs = tokenizer(
...     "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> predicted_token_class_ids = logits.argmax(-1)

>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes
...

>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
...

UMT5ForQuestionAnswering

class transformers.UMT5ForQuestionAnswering

< source 源码 >

( config )

参数

config (UMT5ForQuestionAnswering) — 模型配置类，包含模型的所有参数。使用配置文件初始化并不会加载与模型相关的权重，只加载配置。请查看 from_pretrained() 方法以加载模型权重。

Umt5 transformer，其上带有一个用于抽取式问答任务（如 SQuAD）的跨度分类头（在隐藏状态输出之上有一个线性层，用于计算 span start logits 和 span end logits）。

此模型继承自 PreTrainedModel。请查看超类文档，了解库为所有模型实现的通用方法（如下载或保存、调整输入嵌入大小、修剪头部等）。

此模型也是 PyTorch torch.nn.Module 子类。将其作为常规 PyTorch 模块使用，并参考 PyTorch 文档了解所有与通用使用和行为相关的事项。

forward

< source 源码 >

( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None decoder_input_ids: typing.Optional[torch.LongTensor] = None decoder_attention_mask: typing.Optional[torch.BoolTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None decoder_head_mask: typing.Optional[torch.FloatTensor] = None cross_attn_head_mask: typing.Optional[torch.Tensor] = None encoder_outputs: typing.Optional[tuple[tuple[torch.Tensor]]] = None start_positions: typing.Optional[torch.LongTensor] = None end_positions: typing.Optional[torch.LongTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None decoder_inputs_embeds: typing.Optional[torch.FloatTensor] = None use_cache: typing.Optional[bool] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.Seq2SeqQuestionAnsweringModelOutput 或 tuple(torch.FloatTensor)

参数

input_ids (形状为 (batch_size, sequence_length) 的 torch.LongTensor) — 词汇表中输入序列 token 的索引。UMT5 是一个带有相对位置嵌入的模型，因此你应该能够在输入的左右两侧进行填充。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是输入 ID？

要了解如何为预训练准备 input_ids，请查看 UMT5 训练。
attention_mask (形状为 (batch_size, sequence_length) 的 torch.FloatTensor，可选) — 避免对填充 token 索引执行注意力的掩码。掩码值在 [0, 1] 中选择：
- 1 表示 token 未被掩码，
- 0 表示 token 被掩码。
什么是注意力掩码？
decoder_input_ids (形状为 (batch_size, target_sequence_length) 的 torch.LongTensor，可选) — 词汇表中解码器输入序列 token 的索引。

可以使用 AutoTokenizer 获取索引。有关详细信息，请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。

什么是解码器输入 ID？

UMT5 使用 pad_token_id 作为 decoder_input_ids 生成的起始 token。如果使用 past_key_values，可选地只需输入最后的 decoder_input_ids（参阅 past_key_values）。

要了解如何为预训练准备 decoder_input_ids，请查看 UMT5 训练。
decoder_attention_mask (形状为 (batch_size, target_sequence_length) 的 torch.BoolTensor，可选) — 默认行为：生成一个忽略 decoder_input_ids 中填充 token 的张量。默认情况下也将使用因果掩码。
head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.FloatTensor，可选) — 用于使自注意力模块的选定头部无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
decoder_head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.FloatTensor，可选) — 用于使解码器中自注意力模块的选定头部无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
cross_attn_head_mask (形状为 (num_heads,) 或 (num_layers, num_heads) 的 torch.Tensor，可选) — 用于使解码器中交叉注意力模块的选定头部无效的掩码。掩码值在 [0, 1] 中选择：
- 1 表示头部未被掩码，
- 0 表示头部被掩码。
encoder_outputs (tuple[tuple[torch.Tensor]], 可选) — 元组，包含（last_hidden_state，可选：hidden_states，可选：attentions）形状为(batch_size, sequence_length, hidden_size)的last_hidden_state，（可选）是编码器最后一层输出的隐藏状态序列。用于解码器的交叉注意力。
start_positions (torch.LongTensor，形状为(batch_size,)，可选) — 用于计算标记跨度开始位置（索引）的标记分类损失的标签。位置被限制在序列的长度（sequence_length）内。序列外的位置不计入损失计算。
end_positions (torch.LongTensor，形状为(batch_size,)，可选) — 用于计算标记跨度结束位置（索引）的标记分类损失的标签。位置被限制在序列的长度（sequence_length）内。序列外的位置不计入损失计算。
inputs_embeds (torch.FloatTensor，形状为(batch_size, sequence_length, hidden_size)，可选) — 可选地，你可以选择直接传入嵌入表示，而不是传入input_ids。如果你想对如何将input_ids索引转换为关联向量有比模型内部嵌入查找矩阵更多的控制，这很有用。
decoder_inputs_embeds (torch.FloatTensor，形状为(batch_size, target_sequence_length, hidden_size)，可选) — 可选地，你可以选择直接传入嵌入表示，而不是传入decoder_input_ids。如果使用past_key_values，可选地只需要输入最后一个decoder_inputs_embeds（参见past_key_values）。如果你想对如何将decoder_input_ids索引转换为关联向量有比模型内部嵌入查找矩阵更多的控制，这很有用。

如果decoder_input_ids和decoder_inputs_embeds都未设置，则decoder_inputs_embeds取inputs_embeds的值。
use_cache (bool, 可选) — 如果设置为True，则返回past_key_values键值状态，可用于加速解码（参见past_key_values）。
output_attentions (bool, 可选) — 是否返回所有注意力层的注意力张量。更多详情请参见返回张量下的attentions。
output_hidden_states (bool, 可选) — 是否返回所有层的隐藏状态。更多详情请参见返回张量下的hidden_states。
return_dict (bool, 可选) — 是否返回ModelOutput而不是普通元组。

transformers.modeling_outputs.Seq2SeqQuestionAnsweringModelOutput 或 tuple(torch.FloatTensor)

一个transformers.modeling_outputs.Seq2SeqQuestionAnsweringModelOutput或一个torch.FloatTensor元组（如果传入return_dict=False或config.return_dict=False时），包含根据配置（UMT5Config）和输入的不同元素。

loss (torch.FloatTensor of shape (1,), 可选, 当提供 labels 时返回) — 总范围提取损失是起始位置和结束位置的交叉熵之和。
start_logits (torch.FloatTensor of shape (batch_size, sequence_length)) — 范围起始分数（SoftMax 之前）。
end_logits (torch.FloatTensor of shape (batch_size, sequence_length)) — 范围结束分数（SoftMax 之前）。
past_key_values (EncoderDecoderCache, 可选，当传递 use_cache=True 或 config.use_cache=True 时返回) — 这是一个 EncoderDecoderCache 实例。有关更多详细信息，请参阅我们的 kv 缓存指南。

包含预先计算的隐藏状态（自注意力块和交叉注意力块中的键和值），可用于（参见 past_key_values 输入）加速顺序解码。
decoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层的输出一个），形状为 (batch_size, sequence_length, hidden_size)。

解码器在每一层输出时的隐藏状态以及初始嵌入输出。
decoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。
cross_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

解码器交叉注意力层的注意力权重，在注意力 softmax 之后，用于计算交叉注意力头中的加权平均。
encoder_last_hidden_state (torch.FloatTensor，形状为 (batch_size, sequence_length, hidden_size)，可选) — 模型编码器最后一层输出的隐藏状态序列。
encoder_hidden_states (tuple(torch.FloatTensor), 可选, 当传递 output_hidden_states=True 或 config.output_hidden_states=True 时返回) — torch.FloatTensor 元组（一个用于嵌入层输出，如果模型有嵌入层，+ 每个层的输出一个），形状为 (batch_size, sequence_length, hidden_size)。

编码器在每一层输出时的隐藏状态以及初始嵌入输出。
encoder_attentions (tuple(torch.FloatTensor), 可选, 当传递 output_attentions=True 或 config.output_attentions=True 时返回) — torch.FloatTensor 元组（每个层一个），形状为 (batch_size, num_heads, sequence_length, sequence_length)。

编码器的注意力权重，在注意力 softmax 之后，用于计算自注意力头中的加权平均。

UMT5ForQuestionAnswering的forward方法，重写了__call__特殊方法。

示例

>>> from transformers import AutoTokenizer, UMT5ForQuestionAnswering
>>> import torch

>>> tokenizer = AutoTokenizer.from_pretrained("google/umt5-small")
>>> model = UMT5ForQuestionAnswering.from_pretrained("google/umt5-small")

>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"

>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
...     outputs = model(**inputs)

>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()

>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> tokenizer.decode(predict_answer_tokens, skip_special_tokens=True)
...

>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([14])
>>> target_end_index = torch.tensor([15])

>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss
>>> round(loss.item(), 2)
...

< > 在 GitHub 上更新

←UL2 X-MOD→