由Kenton Lee、Mandar Joshi、Iulia Turc、Hexiang Hu、Fangyu Liu、Julian Eisenschlos、Urvashi Khandelwal、Peter Shaw、Ming-Wei Chang和Kristina Toutanova提出的Pix2Struct模型在《Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding》一文中提出,该文可从arXiv获得。
论文的摘要如下
视觉语言无处不在——资源从带有图表的教科书到带有图像和表格的网页,再到带有按钮和表单的移动应用程序。也许由于这种多样性,以前的工作通常依赖于特定领域的配方,并且底部数据的共享、模型架构和目标有限。我们提出了Pix2Struct,一个专门用于视觉语言理解的预训练图像到文本模型,它可以对新任务中的视觉语言进行微调。Pix2Struct通过学习将带有遮罩的网页截图解析为简化HTML进行预训练。具有丰富视觉元素并在HTML结构中清晰地反映出的互联网提供了一个适用于下游任务多样性的大量预训练数据源。直观地说,此目标包含常见的预训练信号,例如OCR、语言建模、图像字幕。除了新颖的预训练策略外,我们还引入了一种可变分辨率的输入表示和更灵活的视觉和语言输入集成,其中语言提示(如问题)直接显示在输入图像上面。我们首次表明,单个预训练模型可以在九项任务中六项取得最先进的结果,这些任务涵盖了四个领域:文档、插图、用户界面和自然图像。
提示
Pix2Struct已在各种任务和数据集上进行了微调,从图像字幕、不同输入(书籍、图表、科学图表)的视觉问答(VQA),到UI组件字幕等。完整的列表可以在论文中表1找到。因此,我们建议您只在已微调的模型上使用这些模型。例如,如果您想用Pix2Struct进行UI字幕,应使用在UI数据集上微调的模型。如果您想用Pix2Struct进行图像字幕,应使用在自然图像字幕数据集上微调的模型等等。
如果您想使用该模型进行有条件的文本字幕,请确保使用带有add_special_tokens=False
的处理器。
此模型由ybelkada贡献。原始代码可以在这里找到:此处。
资源
Pix2StructConfig
类 transformers.Pix2StructConfig
< 来源 >( text_config = None vision_config = None initializer_factor = 1.0 initializer_range = 0.02 is_vqa = False tie_word_embeddings = False is_encoder_decoder = True **kwargs )
参数
Pix2StructConfig 是一个配置类,用于存储 Pix2StructForConditionalGeneration 的配置。它用于根据指定的参数实例化 Pix2Struct 模型,定义文本模型和视觉模型配置。使用默认值实例化配置将得到类似于 Pix2Struct-base google/pix2struct-base 架构的配置。
配置对象继承自 PretrainedConfig 并可以用来控制模型输出。更多请参阅 PretrainedConfig 文档。
示例
>>> from transformers import Pix2StructConfig, Pix2StructForConditionalGeneration
>>> # Initializing a Pix2StructConfig with google/pix2struct-base style configuration
>>> configuration = Pix2StructConfig()
>>> # Initializing a Pix2StructForConditionalGeneration (with random weights) from the google/pix2struct-base style configuration
>>> model = Pix2StructForConditionalGeneration(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
>>> # We can also initialize a Pix2StructConfig from a Pix2StructTextConfig and a Pix2StructVisionConfig
>>> # Initializing a Pix2Struct text and Pix2Struct vision configuration
>>> config_text = Pix2StructTextConfig()
>>> config_vision = Pix2StructVisionConfig()
>>> config = Pix2StructConfig.from_text_vision_configs(config_text, config_vision)
from_text_vision_configs
< 来源 >( text_config: Pix2StructTextConfig vision_config: Pix2StructVisionConfig **kwargs ) → Pix2StructConfig
从 pix2struct 文本模型配置和 pix2struct 视觉模型配置实例化 Pix2StructConfig(或其派生类)。
Pix2StructTextConfig
类 transformers.Pix2StructTextConfig
< 来源 >( vocab_size = 50244 hidden_size = 768 d_kv = 64 d_ff = 2048 num_layers = 12 num_heads = 12 relative_attention_num_buckets = 32 relative_attention_max_distance = 128 dropout_rate = 0.1 layer_norm_epsilon = 1e-06 initializer_factor = 1.0 dense_act_fn = 'gelu_new' decoder_start_token_id = 0 use_cache = False pad_token_id = 0 eos_token_id = 1 tie_word_embeddings = False is_decoder = True **kwargs )
参数
- vocab_size (
int
, 可选,默认为50244) —Pix2Struct
文本模型的词汇容量。定义了在调用Pix2StructTextModel
时通过inputs_ids
传递可以表示的不同标记数量。 - hidden_size (
int
,可选,默认值768) — 编码层和池化层的空间维度。 - d_kv (
int
,可选,默认值64) — 每个注意力头中键、查询、值投影的空间维度。 - d_ff (
int
,可选,默认值2048) — 变换编码器中的“中间”层(即前馈层)的空间维度。 - num_layers (
int
, 可选, 默认为 12) — Transformer 编码器中隐藏层的数量。 - num_heads (
int
, 可选, 默认为 12) — Transformer 编码器中每个注意力层使用的注意力头数量。 - relative_attention_num_buckets (
int
, 可选, 默认为 32) — 每个注意力层使用的桶数。 - relative_attention_max_distance (
int
, 可选, 默认为128) — 存储桶分离的长序列的最大距离。 - dropout_rate (
float
, 可选, 默认为0.1) — 在嵌入层、编码器和池化器中的所有全连接层的dropout概率。 - layer_norm_epsilon (
float
, 可选, 默认为1e-6) — 层归一化层使用的epsilon值。 - initializer_factor (
float
, 可选, 默认为1.0) — 初始化所有权重矩阵的因子(应保持为1,用于内部初始化测试)。 - dense_act_fn (
Union[Callable, str]
, 可选, 默认为"gelu_new"
) — 非线性激活函数(函数或字符串)。 - decoder_start_token_id (
int
, 可选, 默认为 0) —decoder_start_token_id
令牌的 id。 - use_cache (
bool
, 可选, 默认为False
) — 模型是否应返回最后一个键/值的注意力(不是所有模型都使用)。 - pad_token_id (
int
, 可选, 默认为0) — 填充标记的标识符。 - eos_token_id (
int
, 可选, 默认为1) — 序列结束标记的标识符。
这是用于存储 Pix2StructTextModel 配置的配置类。它用于根据指定的参数实例化 Pix2Struct 文本模型,定义模型架构。使用默认值实例化的配置将生成与 google/pix2struct-base 架构使用的 Pix2Struct 文本解码器相似的配置。
配置对象继承自 PretrainedConfig 并可以用来控制模型输出。更多请参阅 PretrainedConfig 文档。
示例
>>> from transformers import Pix2StructTextConfig, Pix2StructTextModel
>>> # Initializing a Pix2StructTextConfig with google/pix2struct-base style configuration
>>> configuration = Pix2StructTextConfig()
>>> # Initializing a Pix2StructTextModel (with random weights) from the google/pix2struct-base style configuration
>>> model = Pix2StructTextModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
Pix2StructVisionConfig
类 transformers.Pix2StructVisionConfig
< 源代码 >( hidden_size = 768 patch_embed_hidden_size = 768 d_ff = 2048 d_kv = 64 num_hidden_layers = 12 num_attention_heads = 12 dense_act_fn = 'gelu_new' layer_norm_eps = 1e-06 dropout_rate = 0.0 attention_dropout = 0.0 initializer_range = 1e-10 initializer_factor = 1.0 seq_len = 4096 relative_attention_num_buckets = 32 relative_attention_max_distance = 128 **kwargs )
参数
- hidden_size (
int
, 可选, 默认为768) — 编码器层和池化层的维度。 - patch_embed_hidden_size (
int
, 可选, 默认为768) — Transformer编码器中输入patch_embedding层的维度。 - d_ff (
int
, 可选, 默认为2048) — Transformer编码器中“中间”层(即前馈层)的维度。 - d_kv (
int
, 可选, 默认为64) — 每个注意头中键、查询、值投影的维度。 - num_hidden_layers (
int
, 可选, 默认值 12) — Transformer 编码器中隐藏层的数量。 - num_attention_heads (
int
, 可选, 默认值 12) — Transformer 编码器中每个注意层中注意头的数量。 - dense_act_fn (
str
或function
, 可选, 默认值"gelu_new"
) — 编码器和池化器中使用的非线性激活函数(函数或字符串)。如果字符串,支持"gelu"
,"relu"
,"selu"
和"gelu_new"
。 - layer_norm_eps (
float
, 可选, 默认值 1e-06) — 层归一化层使用的 epsilon。 - dropout_rate (
float
, 可选, 默认为 0.0) — 插入在嵌入层、编码器和池化器中所有全连接层的辍期概率。 - attention_dropout (
float
, 可选, 默认为 0.0) — 注意力概率的辍除比率。 - initializer_range (
float
, 可选, 默认为 1e-10) — 初始化所有权重矩阵的截断正态初始化器标准差。 - initializer_factor (
float
, 可选, 默认为 1.0) — 初始化所有权重矩阵的因子(应为 1,用于内部初始化测试)。 -
seq_len ( int
, 可选, 默认为 4096) — 模型支持的序列最大长度(这里是补丁数量)。 -
relative_attention_num_buckets ( int
, 可选, 默认为 32) — 每个注意力层使用的桶数量。 -
relative_attention_max_distance ( int
, 可选, 默认为 128) — 每个注意力层使用的最大距离(以词为单位)。
这是用于存储 Pix2StructVisionModel 配置的配置类。它用于根据指定的参数实例化 Pix2Struct 视觉模型,定义模型架构。默认配置的实例化将产生与 Pix2Struct-base google/pix2struct-base 架构类似的配置。
配置对象继承自 PretrainedConfig 并可以用来控制模型输出。更多请参阅 PretrainedConfig 文档。
示例
>>> from transformers import Pix2StructVisionConfig, Pix2StructVisionModel
>>> # Initializing a Pix2StructVisionConfig with google/pix2struct-base style configuration
>>> configuration = Pix2StructVisionConfig()
>>> # Initializing a Pix2StructVisionModel (with random weights) from the google/pix2struct-base style configuration
>>> model = Pix2StructVisionModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
Pix2StructProcessor
类 transformers.Pix2StructProcessor
< 来源 >( image_processor tokenizer )
参数
- image_processor (
Pix2StructImageProcessor
) — Pix2StructImageProcessor的一个实例。图像处理器是必须输入。 - tokenizer (联合[
T5TokenizerFast
,T5Tokenizer
]) — 是[‘T5TokenizerFast`]或[‘T5Tokenizer`]的实例。分词器是必需的输入。
构建一个PIX2STRUCT处理器,它将BERT分词器和PIX2STRUCT图像处理器组合成一个单一的处理器。
Pix2StructProcessor 提供了 Pix2StructImageProcessor 和 T5TokenizerFast 的所有功能。有关更多信息,请参阅 __call__()
和 decode() 方法的文档字符串。
该方法将所有其参数传递给 Pix2StructTokenizerFast 的 batch_decode()。请参阅此方法的文档字符串以获取更多信息。
Pix2StructImageProcessor
类 transformers.Pix2StructImageProcessor
< 来源 >( do_convert_rgb: bool = True do_normalize: bool = True patch_size: Dict = None max_patches: int = 2048 is_vqa: bool = False **kwargs )
构建 Pix2Struct 图像处理器。
预处理
( images: 联合 header_text: 可选 = None do_convert_rgb: 布尔 = None do_normalize: 可选 = None max_patches: 可选 = None patch_size: 可选 = None return_tensors: 联合 = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: 联合 = None **kwargs )
参数
- images (
ImageInput
) — 预处理图像。期望单张或多张图像。 - header_text (
Union[List[str], str]
, 可选) — 作为头部渲染的文本。只有当image_processor.is_vqa
为True
时才有效。 - do_convert_rgb (
bool
, 可选, 默认为self.do_convert_rgb
) — 是否将图像转换为RGB格式。 - do_normalize (
bool
, 可选, 默认为self.do_normalize
) — 是否对图像进行归一化处理。 - max_patches (
int
, 可选, 默认为self.max_patches
) — 最大提取补丁数。 - patch_size (
dict
, 可选, 默认为self.patch_size
) — 包含补丁高度和宽度字典。 - return_tensors (
str
或TensorType
,可选)— 返回张量的类型。可以是以下之一:- 未设置:返回一个
np.ndarray
列表。 TensorType.TENSORFLOW
或'tf'
:返回类型为tf.Tensor
的批次。TensorType.PYTORCH
或'pt'
:返回类型为torch.Tensor
的批次。TensorType.NUMPY
或'np'
:返回类型为np.ndarray
的批次。TensorType.JAX
或'jax'
:返回类型为jax.numpy.ndarray
的批次。
- 未设置:返回一个
- data_format (
ChannelDimension
或str
,可选,默认为ChannelDimension.FIRST
)— 输出图像的通道维度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:图像格式为 (num_channels, height, width)。"channels_last"
或ChannelDimension.LAST
:图像格式为 (height, width, num_channels)。- 未设置:使用输入图像的通道维度格式。
- — input_data_format (
ChannelDimension
或str
,可选)— 输入图像的通道维度格式。如果未设置,将根据输入图像推断通道维度格式。可以是以下之一:"channels_first"
或ChannelDimension.FIRST
:图像格式为 (通道数,高度,宽度)。"channels_last"
或ChannelDimension.LAST
:图像格式为 (高度,宽度,通道数)。"none"
或ChannelDimension.NONE
:图像格式为 (高度,宽度)。
预处理图像或图像批处理。处理器首先计算可以从图像中提取的最大可能数量的宽高比保持不变的尺寸为 patch_size
的补片。然后使用零填充图像,以使图像满足 max_patches
的约束。在提取补片之前,图像将遵循 tensorflow 实现的 per_image_standardization
(https://tensorflowcn.cn/api_docs/python/tf/image/per_image_standardization)进行标准化。
Pix2StructTextModel
类 transformers.Pix2StructTextModel
< source >( config )
参数
- config (Union[
Pix2StructConfig
,Pix2StructTextConfig
]) — 模型参数类,包含模型的所有参数。使用配置文件进行初始化不会加载与模型关联的权重,只会加载配置。请检查from_pretrained() 方法以加载模型权重。
Pix2Struct 的独立文本解码器
Pix2Struct 模型由 Kenton Lee、Mandar Joshi、Iulia Turc、Hexiang Hu、Fangyu Liu、Julian Eisenschlos、Urvashi Khandelwal、Peter Shaw、Ming-Wei Chang 和 Kristina Toutanova 提出,发表在Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding 文章中。它是在图像到文本环境下预训练的编码器-解码器 Transformer。
此模型继承自 PreTrainedModel。请查看超级类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)
此模型也是 PyTorch torch.nn.Module 的子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取与一般使用和行为有关的所有信息。
forward
< source >( input_ids: 可选 = None attention_mask: 可选 = None encoder_hidden_states: 可选 = None encoder_attention_mask: 可选 = None inputs_embeds: 可选 = None head_mask: 可选 = None cross_attn_head_mask: 可选 = None past_key_values: 可选 = None use_cache: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None labels: 可选 = None return_dict: 可选 = None **kwargs ) → transformers.modeling_outputs.CausalLMOutputWithCrossAttentions or tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
of shape(batch_size, sequence_length)
) — 输入序列token在词汇表中的索引。Pix2StructText是一个具有相对位置嵌入的模型,因此您应该能够在左右两端填充输入。可以通过 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
有关如何为预训练准备
input_ids
的更多说明,请参阅 Pix2StructText 训练。 - attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, optional) — 避免在填充token索引上执行注意力的掩码。掩码值选择在[0, 1]
:- 1 代表 未掩码 的token,
- 0 代表 掩码 的token。
- decoder_input_ids (
torch.LongTensor
of shape(batch_size, target_sequence_length)
, optional) — 词汇表中的解码器输入序列token的索引。索引可以通过使用 AutoTokenizer 来获得。请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call() 以了解详细信息。
Pix2StructText使用
pad_token_id
作为decoder_input_ids
生成的起始token。如果使用past_key_values
,则可选地只需要输入最后的decoder_input_ids
(参见past_key_values
)。有关如何为预训练准备
decoder_input_ids
的更多信息,请参阅Pix2StructText 训练。 - decoder_attention_mask (
torch.BoolTensor
形状为(batch_size, target_sequence_length)
,可选) — 默认行为:生成一个tensor,忽略decoder_input_ids
中的填充token。默认还将使用因果掩码。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或者(num_layers, num_heads)
,可选) — 用于使编码器中的自注意力模块的被选头失效的掩码。选中的掩码值在[0, 1]
中:- 1 表示头未掩码,
- 0 表示头已掩码。
- decoder_head_mask (
torch.FloatTensor
形状为(num_heads,)
或者(num_layers, num_heads)
,可选) — 用于使解码器中的自注意力模块的被选头失效的掩码。选中的掩码值在[0, 1]
中:- 1 表示头未掩码,
- 0 表示头已掩码。
- cross_attn_head_mask (
torch.Tensor
of shape(num_heads,)
or(num_layers, num_heads)
, optional) — 用于取消跨注意力模块中选定头部的掩码。掩码值在[0, 1]
之间选择:- 1 表示头部未掩码,
- 0 表示头部已掩码。
- encoder_outputs (
tuple(tuple(torch.FloatTensor)
, optional) — 包含元素为 (last_hidden_state
,optional
: hidden_states,optional
: attentions) 的元组last_hidden_state
的形状为(batch_size, sequence_length, hidden_size)
,这是编码器最后一层输出的隐藏状态序列。用于解码器中的跨注意力计算。 - past_key_values (长度为
config.n_layers
的tuple(tuple(torch.FloatTensor))
,每个元组包含4个形状为(batch_size, num_heads, sequence_length - 1, embed_size_per_head)
的张量) - 包含注意力层的预计算键和值隐藏状态。可用于加速解码。如果使用
past_key_values
,用户可以选择只输入形状为(batch_size, 1)
的最后decoder_input_ids
(那些没有给此模型提供过去键值状态的)而不是输入所有形状为(batch_size, sequence_length)
的decoder_input_ids
。 - inputs_embeds(形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选)——你可以选择直接传递一个嵌入表示,而不是传递input_ids
。这在你想比模型的内部嵌入查找矩阵有更多控制权时很有用。 - decoder_inputs_embeds (形状为
(batch_size, target_sequence_length, hidden_size)
的torch.FloatTensor
,可选) — 可以选择不传递decoder_input_ids
,直接传递嵌入表示。如果使用了past_key_values
,则可选的只输入最后的decoder_inputs_embeds
(参见past_key_values
)。如果您想要比模型的内部嵌入查找矩阵有更多控制权来转换decoder_input_ids
索引到相关向量,这个选项很有用。如果未设置
decoder_input_ids
和decoder_inputs_embeds
,则decoder_inputs_embeds
将取inputs_embeds
的值。 - use_cache (布尔值,可选) — 如果设置为
True
,将返回past_key_values
的键值状态,可用于加速解码(参见past_key_values
)。 - output_attentions (布尔值,可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参见返回张量下的
attentions
。 - — output_hidden_states (
bool
,可选) - 是否返回所有层的隐藏状态。有关更多详情,请参阅返回张量下的hidden_states
。 - — return_dict (
bool
,可选) - 是否返回 ModelOutput 而不是普通的元组。
返回
transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或 tuple(torch.FloatTensor)
A transformers.modeling_outputs.CausalLMOutputWithCrossAttentions 或一个由 torch.FloatTensor
组成的元组(如果传递了 return_dict=False
或当 config.return_dict=False
)包含各种元素,具体取决于配置(Pix2StructConfig)和输入。
-
loss (
torch.FloatTensor
形状为(1,)
,可选,当提供的labels
时返回)- 语言模型损失(用于下一个令牌预测)。 -
logits (
torch.FloatTensor
形状为(batch_size, sequence_length, config.vocab_size)
)- 语言建模头的预测分数(在 SoftMax 之前每个词汇表令牌的分数)。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
时返回,或者当config.output_hidden_states=True
)- 由torch.FloatTensor
组成的元组(一个用于嵌入层的输出,如果模型有嵌入层,+一个用于每个层的输出)的形状为(batch_size, sequence_length, hidden_size)
。每个层的模型输出隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
时返回,或者当config.output_attentions=True
)- 由torch.FloatTensor
组成的元组(每个层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于在自我注意力头中计算加权平均值。
-
cross_attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
时返回,或者当config.output_attentions=True
)- 由torch.FloatTensor
组成的元组(每个层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力softmax后的交叉注意力权重,用于在交叉注意力头中计算加权平均。
-
past_key_values (
tuple(tuple(torch.FloatTensor))
, 可选,当传递use_cache=True
或当config.use_cache=True
时返回) — 长度为config.n_layers
的多个torch.FloatTensor
元组的元组,其中每个元组包含在编码器-解码器设置中使用模型时自我注意力和交叉注意力层的缓存键值状态。只有在config.is_decoder = True
时相关。包含可以用于加速顺序解码的预计算的隐藏状态(注意力块中的键和值)。
Pix2StructTextModel的前向方法重写了__call__
特殊方法。
尽管需要定义前向传递的配方在此函数内,但是应该调用之后的Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默忽略它们。
示例
>>> from transformers import AutoProcessor, Pix2StructTextModel
>>> processor = AutoProcessor.from_pretrained("google/pix2struct-textcaps-base")
>>> model = Pix2StructTextModel.from_pretrained("google/pix2struct-textcaps-base")
>>> inputs = processor(text="Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)
>>> loss = outputs.loss
Pix2StructVisionModel
类 transformers.Pix2StructVisionModel
< source >( config: Pix2StructConfig )
参数
- config (Pix2StructConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载模型相关的权重,只有配置。请查看 from_pretrained() 方法以加载模型权重。
一个裸的 Pix2StructVision 模型转换器,输出原始隐藏状态,没有任何特定的头部。该模型是 PyTorch torch.nn.Module 子类。将其用作常规 PyTorch 模块,并参阅 PyTorch 文档以了解所有有关一般使用和行为的相关事宜。
forward
< source >( flattened_patches: 可选 = Noneattention_mask: 可选 = Nonehead_mask: 可选 = Noneoutput_attentions: 可选 = Noneoutput_hidden_states: 可选 = Nonereturn_dict: 可选 = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
参数
- flattened_patches (
torch.FilesFloat
的形状为(batch_size, sequence_length, num_channels x patch_height x patch_width)
) — 扁平化和填充的像素值。这些值可以使用AutoImageProcessor获取。有关详细信息,请参阅Pix2StructVisionImageProcessor.__call__
。更多信息请参阅原始论文(图5)。 - attention_mask (
torch.FilesFloat
的形状为(batch_size, sequence_length)
,可选) — 避免对填充像素值执行注意力的掩码。掩码值选择在[0, 1]
中: - head_mask (
torch.FilesFloat
的形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 用于将自注意力模块中选定的头置为无效的掩码。掩码值选择在[0, 1]
中: - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。详见返回张量下的attentions
详情。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。详见返回张量下的hidden_states
详情。 - return_dict (
bool
, 可选) — 是否返回一个ModelOutput对象而非普通元组。
返回
transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
A transformers.modeling_outputs.BaseModelOutputWithPooling 或一个包含torch.FloatTensor
的元组(如果传递了return_dict=False
或当config.return_dict=False
时),包含根据配置(Pix2StructConfig)和输入的各种元素。
-
last_hidden_state (
torch.FloatTensor
shifting shape(batch_size, sequence_length, hidden_size)
) — 模型的最后一层输出的隐藏状态序列。 -
pooler_output (形状为
(batch_size, hidden_size)
的torch.FloatTensor
) —— 在经过附加预训练任务中使用的层进一步处理后,序列中第一个标记(分类标记)的最后一层隐藏状态。例如,对于BERT模型系列,这将在线性层和tanh激活函数之后返回分类标记。线性层的权重是在预训练过程中通过下一句预测(分类)目标进行训练的。 -
hidden_states (
tuple(torch.FloatTensor)
,可选,当传递output_hidden_states=True
时返回,或者当config.output_hidden_states=True
)- 由torch.FloatTensor
组成的元组(一个用于嵌入层的输出,如果模型有嵌入层,+一个用于每个层的输出)的形状为(batch_size, sequence_length, hidden_size)
。每个层的模型输出隐藏状态以及可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
时返回,或者当config.output_attentions=True
)- 由torch.FloatTensor
组成的元组(每个层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于在自我注意力头中计算加权平均值。
Pix2StructVisionModel的前向方法覆盖了特殊方法__call__
。
尽管需要定义前向传递的配方在此函数内,但是应该调用之后的Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默忽略它们。
示例
>>> import requests
>>> from PIL import Image
>>> from transformers import AutoProcessor, Pix2StructVisionModel
>>> image_processor = AutoProcessor.from_pretrained("google/pix2struct-textcaps-base")
>>> model = Pix2StructVisionModel.from_pretrained("google/pix2struct-textcaps-base")
>>> url = "https://www.ilankelman.org/stopsigns/australia.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = image_processor(images=image, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 2048, 768]
Pix2StructForConditionalGeneration
类 transformers.Pix2StructForConditionalGeneration
< 源代码 >( config: Pix2StructConfig )
参数
- config (联合
Pix2StructConfig
和Pix2StructTextConfig
) —— 包含模型所有参数的模型配置类。使用配置文件进行初始化不会加载与模型关联的权重,只会加载配置。查看from_pretrained()方法以加载模型权重。
一个带有语言建模头部的条件生成模型。可用于序列生成任务。
Pix2Struct 模型由 Kenton Lee、Mandar Joshi、Iulia Turc、Hexiang Hu、Fangyu Liu、Julian Eisenschlos、Urvashi Khandelwal、Peter Shaw、Ming-Wei Chang 和 Kristina Toutanova 提出,发表在Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding 文章中。它是在图像到文本环境下预训练的编码器-解码器 Transformer。
此模型继承自 PreTrainedModel。请查看超级类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)
此模型也是 PyTorch torch.nn.Module 的子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取与一般使用和行为有关的所有信息。
forward
< 源代码 >( flatened_patches: 可选 = None attention_mask: 可选 = None decoder_input_ids: 可选 = None decoder_attention_mask: 可选 = None head_mask: 可选 = None decoder_head_mask: 可选 = None cross_attn_head_mask: 可选 = None encoder_outputs: 可选 = None past_key_values: 可选 = None labels: 可选 = None decoder_inputs_embeds: 可选 = None use_cache: 可选 = None output_attentions: 可选 = None output_hidden_states: 可选 = None return_dict: 可选 = None ) → transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)
参数
- flattened_patches (
torch.FloatTensor
of shape(batch_size, seq_length, hidden_size)
) — 展平的像素补丁。隐藏尺寸的计算公式如下:hidden_size
=num_channels
×patch_size
×patch_size
像素补丁的展平过程是通过
Pix2StructProcessor
来完成的。 - attention_mask (
torch.FloatTensor
of shape(batch_size, sequence_length)
, optional) — 用于避免在填充标记索引上执行注意力的掩码。[0, 1]
中的掩码值:- 1 表示未掩码的标记,
- 0 表示掩码的标记。
- decoder_input_ids (
torch.LongTensor
的形状为(batch_size, target_sequence_length)
,可选) — 词库中解码输入序列标记的索引。索引可以通过使用 AutoTokenizer 来获取。详情请见 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
Pix2StructText 使用
pad_token_id
作为decoder_input_ids
生成的起始标记。如果使用past_key_values
,则通常仅输入最后的decoder_input_ids
(参见past_key_values
)。有关如何准备预训练的
decoder_input_ids
的更多信息,请参阅 Pix2StructText 训练。 - decoder_attention_mask (
torch.BoolTensor
的形状为(batch_size, target_sequence_length)
,可选) — 默认行为:生成一个忽略decoder_input_ids
中填充标记的张量。默认也将使用掩码掩码。 - head_mask(《torch.FloatTensor》形状为
(num_heads,)
或(num_layers, num_heads)
,可选) — 用于取消重复选定的编码器自注意力模块头部的掩码。掩码值在[0, 1]
选择:- 1 表示头部未掩码,
- 0 表示头部已掩码。
- decoder_head_mask(《torch.FloatTensor》形状为
(num_heads,)
或(num_layers, num_heads)
,可选) — 用于取消重复选定的解码器自注意力模块头部掩码的掩码。掩码值在[0, 1]
选择:- 1 表示头部未掩码,
- 0 表示头部已掩码。
- cross_attn_head_mask(《torch.Tensor》形状为
(num_heads,)
或(num_layers, num_heads)
,可选) — 用于取消重复选定解码器交叉注意力模块头部掩码的掩码。掩码值在[0, 1]
选择:- 1 表示头部未掩码,
- 0 表示头部已掩码。
- encoder_outputs (
tuple(tuple(torch.FloatTensor)
, optional) — Tuple consists of (last_hidden_state
, optional:hidden_states
, optional:attentions
)last_hidden_state
of shape(batch_size, sequence_length, hidden_size)
is a sequence of hidden states at the output of the last layer of the encoder. Used in the cross-attention of the decoder. - past_key_values (
tuple(tuple(torch.FloatTensor))
of lengthconfig.n_layers
with each tuple having 4 tensors of shape(batch_size, num_heads, sequence_length - 1, embed_size_per_head)
) — Contains precomputed key and value hidden states of the attention layers. Can be used to speed up decoding.If
past_key_values
are used, the user can optionally input only the lastdecoder_input_ids
(those that don’t have their past key value states given to this model) of shape(batch_size, 1)
instead of alldecoder_input_ids
of shape(batch_size, sequence_length)
. - decoder_inputs_embeds (
torch.FloatTensor
格式为(batch_size, target_sequence_length, hidden_size)
,可选)— 选择性地,而不是传递decoder_input_ids
,可以直接传递嵌入表示。如果使用past_key_values
,则可选地只输入最后一个decoder_inputs_embeds
(参见past_key_values
)。这在您想更多地控制如何将decoder_input_ids
索引转换为相关向量而不使用模型的内部嵌入查找矩阵时非常有用。如果
decoder_input_ids
和decoder_inputs_embeds
均未设置,则decoder_inputs_embeds
采用inputs_embeds
的值。 - labels (
torch.LongTensor
格式为(batch_size, sequence_length)
,可选)— 用于计算解码器掩码语言建模损失标签。 - use_cache (
bool
,可选)— 如果设置为True
,则返回past_key_values
键值状态,并可用于加快解码(参见past_key_values
)。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。请参阅返回张量下的attentions
以获取更多详细信息。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。请参阅返回张量下的hidden_states
以获取更多详细信息。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.modeling_outputs.Seq2SeqModelOutput 或 tuple(torch.FloatTensor)
A transformers.modeling_outputs.Seq2SeqModelOutput 或一个包含连接 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
)的元素,具体取决于配置(Pix2StructConfig)和输入。
-
last_hidden_state (
torch.FloatTensor
的形状为(batch_size, sequence_length, hidden_size)
) — 模型解码器最后一层输出处的隐藏状态顺序。如果使用了
past_key_values
,则只输出形状为(batch_size, 1, hidden_size)
的序列的最后隐藏状态。 -
past_key_values (
tuple(tuple(torch.FloatTensor))
,可选,当传入use_cache=True
或config.use_cache=True
时返回)— 长度为config.n_layers
的tuple(torch.FloatTensor)
元组,每个元组包含 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量,以及 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)
的张量。包含预计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于(参见
past_key_values
输入)以加速顺序解码。 -
decoder_hidden_states (
tuple(torch.FloatTensor)
,可选,当传入output_hidden_states=True
或config.output_hidden_states=True
时返回)—torch.FloatTensor
元组,如果模型有嵌入层,则包含嵌入层的输出,每个层都有一个输出,形状为(batch_size, sequence_length, hidden_size)
。解码器在每层输出以及可选的初始嵌入输出后的隐藏状态。
-
decoder_attentions (
tuple(torch.FloatTensor)
,可选,当传入output_attentions=True
或config.output_attentions=True
时返回)— 每个层都有一个形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组。解码器的注意力权重,在注意力 softmax 后使用,用于计算自注意力头中的加权平均。
-
cross_attentions (
tuple(torch.FloatTensor)
,可选,当传递output_attentions=True
时返回,或者当config.output_attentions=True
)- 由torch.FloatTensor
组成的元组(每个层一个)形状为(batch_size, num_heads, sequence_length, sequence_length)
。解码器的交叉注意力层的注意力权重,在注意力 softmax 后使用,用于计算交叉注意力头中的加权平均。
-
encoder_last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
,可选)— 模型编码器的最后一层输出处的隐藏状态序列。 -
encoder_hidden_states (
tuple(torch.FloatTensor)
,可选,当传入output_hidden_states=True
或config.output_hidden_states=True
时返回)—torch.FloatTensor
元组,如果模型有嵌入层,则包含嵌入层的输出,每个层都有一个输出,形状为(batch_size, sequence_length, hidden_size)
。编码器在每层输出以及可选的初始嵌入输出后的隐藏状态。
-
encoder_attentions (
tuple(torch.FloatTensor)
,可选,当传入output_attentions=True
或config.output_attentions=True
时返回)— 每个层都有一个形状为(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元组。编码器的注意力权重,在注意力 softmax 后使用,用于计算自注意力头中的加权平均。
Pix2StructForConditionalGeneration 的前向方法覆盖了 __call__
特殊方法。
尽管需要定义前向传递的配方在此函数内,但是应该调用之后的Module
实例而不是此函数,因为前者负责运行预处理和后处理步骤,而后者则静默忽略它们。
示例
推理
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, Pix2StructForConditionalGeneration
>>> processor = AutoProcessor.from_pretrained("google/pix2struct-textcaps-base")
>>> model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-textcaps-base")
>>> url = "https://www.ilankelman.org/stopsigns/australia.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(images=image, return_tensors="pt")
>>> # autoregressive generation
>>> generated_ids = model.generate(**inputs, max_new_tokens=50)
>>> generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> print(generated_text)
A stop sign is on a street corner.
>>> # conditional generation
>>> text = "A picture of"
>>> inputs = processor(text=text, images=image, return_tensors="pt", add_special_tokens=False)
>>> generated_ids = model.generate(**inputs, max_new_tokens=50)
>>> generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> print(generated_text)
A picture of a stop sign with a red stop sign
训练
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, Pix2StructForConditionalGeneration
>>> processor = AutoProcessor.from_pretrained("google/pix2struct-base")
>>> model = Pix2StructForConditionalGeneration.from_pretrained("google/pix2struct-base")
>>> url = "https://www.ilankelman.org/stopsigns/australia.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "A stop sign is on the street corner."
>>> inputs = processor(images=image, return_tensors="pt")
>>> labels = processor(text=text, return_tensors="pt").input_ids
>>> # forward pass
>>> outputs = model(**inputs, labels=labels)
>>> loss = outputs.loss
>>> print(f"{loss.item():.5f}")
5.94282