GIT
概述
GIT 模型由 Jianfeng Wang、Zhengyuan Yang、Xiaowei Hu、Linjie Li、Kevin Lin、Zhe Gan、Zicheng Liu、Ce Liu 和 Lijuan Wang 在 GIT: 用于视觉和语言的生成式图像到文本转换器 中提出。GIT 是一种仅解码器的 Transformer,它利用 CLIP 的视觉编码器来使模型除了文本之外还能够接受视觉输入。该模型在图像字幕和视觉问答基准测试中取得了最先进的结果。
论文摘要如下
在本文中,我们设计并训练了一个生成式图像到文本转换器 GIT,以统一图像/视频字幕和问答等视觉语言任务。虽然生成模型在预训练和微调之间提供了统一的网络架构,但现有工作通常包含复杂结构(单/多模态编码器/解码器)并依赖于外部模块,例如物体检测器/标记器和光学字符识别 (OCR)。在 GIT 中,我们将架构简化为一个图像编码器和一个文本解码器,在一个单一的语言建模任务下。我们还扩展了预训练数据和模型大小以提高模型性能。在没有花哨操作的情况下,我们的 GIT 在 12 个具有挑战性的基准测试中以较大优势建立了新的最佳性能。例如,我们的模型首次在 TextCaps 上超过了人类的表现(CIDEr 中为 138.2 比 125.5)。此外,我们提出了一种新的基于生成式的图像分类和场景文本识别方案,在标准基准测试中取得了不错的性能。
GIT 架构。取自 原始论文。使用技巧
- GIT 的实现方式与 GPT-2 非常相似,唯一的区别是该模型也以
pixel_values
为条件。
资源
一些官方的 Hugging Face 和社区(以🌎表示)资源,帮助您开始使用 GIT。
- 关于在自定义数据上进行推理和微调 GIT 的演示笔记本可以在这里找到 这里。
- 另请参阅:因果语言建模任务指南
如果您想提交要包含在此处的资源,请随时打开一个 Pull Request,我们将审核它。理想情况下,该资源应展示新的内容,而不是重复现有的资源。
GitVisionConfig
class transformers.GitVisionConfig
< source >( hidden_size = 768 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 12 num_channels = 3 image_size = 224 patch_size = 16 hidden_act = 'quick_gelu' layer_norm_eps = 1e-05 attention_dropout = 0.0 initializer_range = 0.02 **kwargs )
参数
- hidden_size (
int
, 可选,默认值为 768) — 编码器层和池化层的维度。 - intermediate_size (
int
, optional, defaults to 3072) — Transformer 编码器中“中间”(即前馈)层的维度。 - num_hidden_layers (
int
, optional, defaults to 12) — Transformer 编码器中的隐藏层数量。 - num_attention_heads (
int
, optional, defaults to 12) — Transformer 编码器中每个注意力层的注意力头数量。 - image_size (
int
, optional, defaults to 224) — 每个图像的大小(分辨率)。 - patch_size (
int
, optional, defaults to 16) — 每个补丁的大小(分辨率)。 - hidden_act (
str
或function
, optional, defaults to"quick_gelu"
) — 编码器和池化器中的非线性激活函数(函数或字符串)。如果为字符串,则支持"gelu"
、"relu"
、"selu"
、"gelu_new"
和"quick_gelu"
。 - layer_norm_eps (
float
, optional, defaults to 1e-5) — 层归一化层使用的 epsilon。 - attention_dropout (
float
, optional, defaults to 0.0) — 注意力概率的 dropout 比率。 - initializer_range (
float
, optional, defaults to 0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。
这是用于存储 GitVisionModel 配置的配置类。它用于根据指定的参数实例化 GIT 视觉编码器,定义模型架构。使用默认值实例化配置将产生类似于 GIT microsoft/git-base 架构的视觉编码器配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 文档以了解更多信息。
示例
>>> from transformers import GitVisionConfig, GitVisionModel
>>> # Initializing a GitVisionConfig with microsoft/git-base style configuration
>>> configuration = GitVisionConfig()
>>> # Initializing a GitVisionModel (with random weights) from the microsoft/git-base style configuration
>>> model = GitVisionModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
GitVisionModel
class transformers.GitVisionModel
< 源代码 >( config: GitVisionConfig )
参数
- config (GitConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法加载模型权重。
来自 CLIP 的视觉模型,用于 GIT,没有任何头部或投影。
此模型继承自 PreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入的大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以了解有关通用用法和行为的所有事宜。
前向传播
< 源代码 >( pixel_values: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor
形状为(batch_size, num_channels, height, width)
) — 像素值。如果您提供填充,默认情况下将忽略填充。可以使用 AutoImageProcessor 获取像素值。有关详细信息,请参阅 CLIPImageProcessor.call()。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是普通元组。
返回
transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.BaseModelOutput 或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含根据配置 (<class 'transformers.models.git.configuration_git.GitVisionConfig'>
) 和输入的不同元素。
-
last_hidden_state (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层的输出处的隐藏状态序列。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选,在传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入的输出,如果模型具有嵌入层,+ 一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每一层的输出处的隐藏状态,加上可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选,在传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
The GitVisionModel 前向传播方法,覆盖了 __call__
特殊方法。
虽然前向传播的配方需要在该函数中定义,但应之后调用 Module
实例而不是此方法,因为前者负责运行前处理和后处理步骤,而后者则静默地忽略它们。
示例
>>> from PIL import Image
>>> import requests
>>> from transformers import AutoProcessor, GitVisionModel
>>> processor = AutoProcessor.from_pretrained("microsoft/git-base")
>>> model = GitVisionModel.from_pretrained("microsoft/git-base")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> inputs = processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
GitConfig
class transformers.GitConfig
< source >( vision_config = None vocab_size = 30522 hidden_size = 768 num_hidden_layers = 6 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 1024 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 0 position_embedding_type = 'absolute' use_cache = True tie_word_embeddings = False bos_token_id = 101 eos_token_id = 102 num_image_with_embedding = None **kwargs )
参数
- vision_config (
dict
, 可选) — 用于初始化 GitVisionConfig 的配置选项字典。 - vocab_size (
int
, 可选, 默认值为 30522) — GIT 模型的词汇量大小。定义了调用 GitModel 时,可以通过inputs_ids
表示的不同令牌数量。 - hidden_size (
int
, 可选, 默认值为 768) — 编码器层和池化层的维度。 - num_hidden_layers (
int
, 可选, 默认值为 6) — Transformer 编码器中的隐藏层数量。 - num_attention_heads (
int
, 可选, 默认值为 12) — Transformer 编码器中每个注意力层的注意力头数量。 - intermediate_size (
int
, 可选, 默认值为 3072) — Transformer 编码器中“中间”(通常称为前馈)层的维度。 - attention_probs_dropout_prob (
float
, optional, defaults to 0.1) — 注意力概率的dropout率。 - max_position_embeddings (
int
, optional, defaults to 1024) — 此模型可能使用的最大序列长度。通常将其设置为一个较大的值,以防万一(例如,512 或 1024 或 2048)。 - initializer_range (
float
, optional, defaults to 0.02) — 初始化所有权重矩阵的截断正态分布初始化器的标准差。 - layer_norm_eps (
float
, optional, defaults to 1e-12) — 层归一化层使用的 epsilon 值。 - position_embedding_type (
str
, optional, defaults to"absolute"
) — 位置嵌入的类型。选择"absolute"
、"relative_key"
或"relative_key_query"
之一。对于位置嵌入,请使用"absolute"
。有关"relative_key"
的更多信息,请参阅 Self-Attention with Relative Position Representations (Shaw et al.)。有关"relative_key_query"
的更多信息,请参阅 Improve Transformer Models with Better Relative Position Embeddings (Huang et al.) 中的方法 4。 - use_cache (
bool
, optional, defaults toTrue
) — 模型是否应该返回最后的键/值注意力(并非所有模型都使用)。 - num_image_with_embedding (
int
, optional) — 要添加的时间嵌入数量,如果模型用于视频字幕/VQA。
这是用于存储 GitModel 配置的配置类。它用于根据指定的参数实例化 GIT 模型,定义模型架构。使用默认值实例化配置将产生与 GIT microsoft/git-base 架构类似的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 文档以了解更多信息。
示例
>>> from transformers import GitConfig, GitModel
>>> # Initializing a GIT microsoft/git-base style configuration
>>> configuration = GitConfig()
>>> # Initializing a model (with random weights) from the microsoft/git-base style configuration
>>> model = GitModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
GitProcessor
class transformers.GitProcessor
< source >( image_processor tokenizer )
参数
- image_processor (AutoImageProcessor) — 图像处理器是必需的输入。
- tokenizer (AutoTokenizer) — 分词器是必需的输入。
构建一个 GIT 处理器,它将 CLIP 图像处理器和 BERT 分词器包装到一个处理器中。
GitProcessor 提供了 CLIPImageProcessor 和 BertTokenizerFast 的所有功能。有关更多信息,请参见 call() 和 decode()
。
__call__
< 源代码 > ( text = None images = None return_tensors = None **kwargs ) → BatchEncoding
参数
- text (
str
,List[str]
,List[List[str]]
) — 要编码的序列或序列批次。每个序列可以是字符串或字符串列表(预标记字符串)。如果序列以字符串列表(预标记)提供,则必须设置is_split_into_words=True
(以消除与序列批次的歧义)。 - images (
PIL.Image.Image
,np.ndarray
,torch.Tensor
,List[PIL.Image.Image]
,List[np.ndarray]
,List[torch.Tensor]
) — 要准备的图像或图像批次。每个图像可以是 PIL 图像、NumPy 数组或 PyTorch 张量。支持通道优先和通道最后格式。 - return_tensors (
str
或 TensorType, 可选) — 如果设置,将返回特定框架的张量。可接受的值为:'tf'
: 返回 TensorFlowtf.constant
对象。'pt'
: 返回 PyTorchtorch.Tensor
对象。'np'
: 返回 NumPynp.ndarray
对象。'jax'
: 返回 JAXjnp.ndarray
对象。
一个 BatchEncoding,包含以下字段
- input_ids — 要馈送到模型的令牌 ID 列表。当
text
不为None
时返回。 - attention_mask — 指定模型应关注哪些令牌的索引列表(当
return_attention_mask=True
或 “attention_mask” 位于self.model_input_names
中,并且text
不为None
时)。 - pixel_values — 要馈送到模型的像素值。当
images
不为None
时返回。
准备一个或多个序列和图像以供模型使用的主方法。如果 text
不为 None
,此方法将 text
和 kwargs
参数转发到 BertTokenizerFast 的 call() 以编码文本。要准备图像,如果 images
不为 None
,此方法将 images
和 kwrags
参数转发到 CLIPImageProcessor 的 call()。有关更多信息,请参阅上述两种方法的 doctsring。
GitModel
class transformers.GitModel
< 源代码 >( config )
参数
- config (GitConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法来加载模型权重。
由 CLIP 图像编码器和文本解码器组成的基本 GIT 模型变换器,输出原始隐藏状态,没有在顶部添加任何特定的头部。
此模型继承自 PreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入的大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以了解有关通用用法和行为的所有事宜。
前向传播
< source > ( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None pixel_values: Optional = None head_mask: Optional = None inputs_embeds: Optional = None past_key_values: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 词汇表中输入序列标记的索引。索引可以使用 AutoTokenizer 获得。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
,可选) — 掩码以避免在填充标记索引上执行注意力。掩码值在[0, 1]
中选择:- 1 表示未屏蔽的标记,
- 0 表示屏蔽的标记。
- position_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
,可选) — 位置嵌入中每个输入序列标记的位置索引。在[0, config.max_position_embeddings - 1]
范围内选择。 - pixel_values (
torch.FloatTensor
形状为(batch_size, num_channels, height, width)
) — 像素值。像素值可以使用 AutoImageProcessor 获得。有关详细信息,请参阅 CLIPImageProcessor.call()。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 掩码以使自注意力模块中选定的头无效。掩码值在[0, 1]
中选择:- 1 表示未屏蔽的头部,
- 0 表示屏蔽的头部。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入式表示,而不是传递input_ids
。如果您希望对如何将input_ids
索引转换为关联向量比模型的内部嵌入查找矩阵有更多控制权,这将很有用。 - output_attentions (
bool
, 可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions
。 - output_hidden_states (
bool
, 可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回一个 ModelOutput 而不是一个简单的元组。 - past_key_values (
tuple(tuple(torch.FloatTensor))
长度为config.n_layers
的元组,每个元组包含 4 个形状为(batch_size, num_heads, sequence_length - 1, embed_size_per_head)
的张量) — 包含注意力块的预计算键和值隐藏状态。可用于加速解码。如果使用
past_key_values
,用户可以选择仅输入形状为(batch_size, 1)
的最后一个decoder_input_ids
(没有提供给此模型的过去键值状态的那些),而不是形状为(batch_size, sequence_length)
的所有decoder_input_ids
。 - use_cache (
bool
, 可选) — 如果设置为True
,则返回past_key_values
键值状态,可用于加速解码(参见past_key_values
)。
返回
transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.BaseModelOutputWithPooling 或一个 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含根据配置(GitConfig)和输入而不同的各种元素。
-
last_hidden_state (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
) — 模型最后一层的输出处的隐藏状态序列。 -
pooler_output (
torch.FloatTensor
形状为(batch_size, hidden_size)
) — 序列第一个标记(分类标记)的最后一层隐藏状态,在通过用于辅助预训练任务的层进一步处理后。例如,对于 BERT 系列模型,这将返回在通过线性层和 tanh 激活函数处理后的分类标记。线性层权重是在预训练期间从下一个句子预测(分类)目标中训练的。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选,在传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入的输出,如果模型具有嵌入层,+ 一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每一层的输出处的隐藏状态,加上可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选,在传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
GitModel 正向方法覆盖了 __call__
特殊方法。
虽然前向传播的配方需要在该函数中定义,但应之后调用 Module
实例而不是此方法,因为前者负责运行前处理和后处理步骤,而后者则静默地忽略它们。
示例
>>> from transformers import AutoProcessor, AutoModel
>>> import requests
>>> from PIL import Image
>>> processor = AutoProcessor.from_pretrained("microsoft/git-base")
>>> model = AutoModel.from_pretrained("microsoft/git-base")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text = "this is an image of two cats"
>>> inputs = processor(text, images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
GitForCausalLM
class transformers.GitForCausalLM
< 来源 >( config )
参数
- config (GitConfig) — 模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
带有 语言建模
头的 GIT 模型,用于自回归语言建模。
此模型继承自 PreTrainedModel。查看超类文档以了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入的大小、修剪头部等)。
此模型也是 PyTorch torch.nn.Module 子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以了解有关通用用法和行为的所有事宜。
前向传播
< 来源 > ( input_ids: Optional = None attention_mask: Optional = None position_ids: Optional = None pixel_values: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None past_key_values: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
) — 输入序列标记在词汇表中的索引。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
形状为(batch_size, sequence_length)
,可选) — 掩码,以避免对填充标记索引执行注意力。 掩码值在[0, 1]
中选择:- 1 表示未被掩盖的标记,
- 0 表示被掩盖的标记。
- position_ids (
torch.LongTensor
形状为(batch_size, sequence_length)
,可选) — 输入序列标记在位置嵌入中的位置索引。 在[0, config.max_position_embeddings - 1]
范围内选择。 - pixel_values (
torch.FloatTensor
形状为(batch_size, num_channels, height, width)
) — 像素值。 可以使用 AutoImageProcessor 获取像素值。 有关详细信息,请参阅 CLIPImageProcessor.call()。 - head_mask (
torch.FloatTensor
形状为(num_heads,)
或(num_layers, num_heads)
,可选) — 掩码,以使自注意力模块的选定头无效。 掩码值在[0, 1]
中选择:- 1 表示未被掩盖的头,
- 0 表示被掩盖的头。
- inputs_embeds (
torch.FloatTensor
形状为(batch_size, sequence_length, hidden_size)
,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids
。 如果您想要对如何将input_ids
索引转换为关联向量比模型的内部嵌入查找矩阵具有更多控制,这将很有用。 - output_attentions (
bool
,可选) — 是否返回所有注意力层的注意力张量。 有关更多详细信息,请参阅返回张量中的attentions
。 - output_hidden_states (
bool
,可选) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参阅返回张量中的hidden_states
。 - return_dict (
bool
, 可选) — 是否返回 ModelOutput 而不是一个简单的元组。 - labels (
torch.LongTensor
形状为(batch_size, sequence_length)
, 可选) — 用于计算从左到右的语言建模损失(下一个词预测)的标签。索引应在[-100, 0, ..., config.vocab_size]
中(参见input_ids
文档字符串)索引设置为-100
的令牌将被忽略(屏蔽),损失仅针对标签在[0, ..., config.vocab_size]
中的令牌计算。 - past_key_values (
tuple(tuple(torch.FloatTensor))
长度为config.n_layers
,每个元组有 4 个形状为(batch_size, num_heads, sequence_length - 1, embed_size_per_head)
的张量) — 包含预先计算的注意力块的关键和值的隐藏状态。可用于加速解码。如果使用
past_key_values
,用户可以选择仅输入最后decoder_input_ids
(那些没有提供其过去的键值状态给此模型的)形状为(batch_size, 1)
而不是所有decoder_input_ids
形状为(batch_size, sequence_length)
。 - use_cache (
bool
, 可选) — 如果设置为True
,则返回past_key_values
键值状态,可用于加速解码(参见past_key_values
)。
返回
transformers.modeling_outputs.CausalLMOutputWithPast 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.CausalLMOutputWithPast 或者 torch.FloatTensor
的元组(如果传递了 return_dict=False
或当 config.return_dict=False
时),包含取决于配置(GitConfig)和输入的各种元素。
-
loss (
torch.FloatTensor
形状为(1,)
, 可选, 在提供labels
时返回) — 语言建模损失(用于下一个词预测)。 -
logits (
torch.FloatTensor
形状为(batch_size, sequence_length, config.vocab_size)
) — 语言建模头的预测分数(SoftMax 之前的每个词汇表令牌的分数)。 -
past_key_values (
tuple(tuple(torch.FloatTensor))
, 可选, 在传递use_cache=True
或当config.use_cache=True
时返回) —tuple(torch.FloatTensor)
的元组,长度为config.n_layers
,每个元组有两个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)
的张量。包含预先计算的隐藏状态(自注意力块中的键和值),可用于(参见
past_key_values
输入)加速顺序解码。 -
hidden_states (
tuple(torch.FloatTensor)
, 可选,在传递output_hidden_states=True
或当config.output_hidden_states=True
时返回) —torch.FloatTensor
的元组(一个用于嵌入的输出,如果模型具有嵌入层,+ 一个用于每一层的输出),形状为(batch_size, sequence_length, hidden_size)
。模型在每一层的输出处的隐藏状态,加上可选的初始嵌入输出。
-
attentions (
tuple(torch.FloatTensor)
, 可选,在传递output_attentions=True
或当config.output_attentions=True
时返回) —torch.FloatTensor
的元组(每一层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
GitForCausalLM 的前向方法覆盖了 __call__
特殊方法。
虽然前向传播的配方需要在该函数中定义,但应之后调用 Module
实例而不是此方法,因为前者负责运行前处理和后处理步骤,而后者则静默地忽略它们。
示例
图像字幕示例
>>> from transformers import AutoProcessor, AutoModelForCausalLM
>>> import requests
>>> from PIL import Image
>>> processor = AutoProcessor.from_pretrained("microsoft/git-base-coco")
>>> model = AutoModelForCausalLM.from_pretrained("microsoft/git-base-coco")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> pixel_values = processor(images=image, return_tensors="pt").pixel_values
>>> generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
>>> generated_caption = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
>>> print(generated_caption)
two cats sleeping on a pink blanket next to remotes.
视觉问答 (VQA) 示例
>>> from transformers import AutoProcessor, AutoModelForCausalLM
>>> from huggingface_hub import hf_hub_download
>>> from PIL import Image
>>> processor = AutoProcessor.from_pretrained("microsoft/git-base-textvqa")
>>> model = AutoModelForCausalLM.from_pretrained("microsoft/git-base-textvqa")
>>> file_path = hf_hub_download(repo_id="nielsr/textvqa-sample", filename="bus.png", repo_type="dataset")
>>> image = Image.open(file_path).convert("RGB")
>>> pixel_values = processor(images=image, return_tensors="pt").pixel_values
>>> question = "what does the front of the bus say at the top?"
>>> input_ids = processor(text=question, add_special_tokens=False).input_ids
>>> input_ids = [processor.tokenizer.cls_token_id] + input_ids
>>> input_ids = torch.tensor(input_ids).unsqueeze(0)
>>> generated_ids = model.generate(pixel_values=pixel_values, input_ids=input_ids, max_length=50)
>>> print(processor.batch_decode(generated_ids, skip_special_tokens=True))
['what does the front of the bus say at the top? special']
视频字幕示例
>>> import av
>>> import numpy as np
>>> from PIL import Image
>>> from huggingface_hub import hf_hub_download
>>> from transformers import AutoProcessor, AutoModelForCausalLM
>>> processor = AutoProcessor.from_pretrained("microsoft/git-base-vatex")
>>> model = AutoModelForCausalLM.from_pretrained("microsoft/git-base-vatex")
>>> # set seed for reproducability
>>> np.random.seed(45)
>>> def read_video_pyav(container, indices):
... '''
... Decode the video with PyAV decoder.
... Args:
... container (`av.container.input.InputContainer`): PyAV container.
... indices (`List[int]`): List of frame indices to decode.
... Returns:
... result (np.ndarray): np array of decoded frames of shape (num_frames, height, width, 3).
... '''
... frames = []
... container.seek(0)
... start_index = indices[0]
... end_index = indices[-1]
... for i, frame in enumerate(container.decode(video=0)):
... if i > end_index:
... break
... if i >= start_index and i in indices:
... frames.append(frame)
... return np.stack([x.to_ndarray(format="rgb24") for x in frames])
>>> def sample_frame_indices(clip_len, frame_sample_rate, seg_len):
... '''
... Sample a given number of frame indices from the video.
... Args:
... clip_len (`int`): Total number of frames to sample.
... frame_sample_rate (`int`): Sample every n-th frame.
... seg_len (`int`): Maximum allowed index of sample's last frame.
... Returns:
... indices (`List[int]`): List of sampled frame indices
... '''
... converted_len = int(clip_len * frame_sample_rate)
... end_idx = np.random.randint(converted_len, seg_len)
... start_idx = end_idx - converted_len
... indices = np.linspace(start_idx, end_idx, num=clip_len)
... indices = np.clip(indices, start_idx, end_idx - 1).astype(np.int64)
... return indices
>>> # load video
>>> file_path = hf_hub_download(
... repo_id="nielsr/video-demo", filename="eating_spaghetti.mp4", repo_type="dataset"
... )
>>> container = av.open(file_path)
>>> # sample frames
>>> num_frames = model.config.num_image_with_embedding
>>> indices = sample_frame_indices(
... clip_len=num_frames, frame_sample_rate=4, seg_len=container.streams.video[0].frames
... )
>>> frames = read_video_pyav(container, indices)
>>> pixel_values = processor(images=list(frames), return_tensors="pt").pixel_values
>>> generated_ids = model.generate(pixel_values=pixel_values, max_length=50)
>>> print("Generated caption:", processor.batch_decode(generated_ids, skip_special_tokens=True))
Generated caption: ['a woman is sitting at a table and she is talking about the food she is holding.']