Transformers 文档
CLIP
并获得增强的文档体验
开始使用
此模型于 2021 年 2 月 26 日发布在 HF 论文中,并于 2021 年 5 月 12 日贡献给 Hugging Face Transformers。
CLIP
CLIP 是一个多模态视觉和语言模型,其动机是克服计算机视觉模型训练中对象类别数量固定的局限。CLIP 通过在 4 亿个(图像,文本)对上进行联合训练,直接从原始文本中学习图像知识。这种规模的预训练使其能够实现下游任务的零样本(zero-shot)迁移。CLIP 使用图像编码器和文本编码器来获取视觉特征和文本特征。两种特征都被投影到具有相同维数的潜在空间中,其点积即为相似度得分。
你可以在 OpenAI 组织下找到所有原始的 CLIP 检查点(checkpoints)。
点击右侧侧边栏中的 CLIP 模型,查看更多关于如何将 CLIP 应用于不同图像和语言任务的示例。
下面的示例演示了如何使用 Pipeline 或 AutoModel 类来计算多个文本描述与图像之间的相似度得分。
from transformers import pipeline
clip = pipeline(
task="zero-shot-image-classification",
model="openai/clip-vit-base-patch32",
device=0
)
labels = ["a photo of a cat", "a photo of a dog", "a photo of a car"]
clip("http://images.cocodataset.org/val2017/000000039769.jpg", candidate_labels=labels)注意事项
- 使用 CLIPImageProcessor 来调整(或重新缩放)并归一化图像以供模型使用。
CLIPConfig
class transformers.CLIPConfig
< 源码 >( transformers_version: str | None = None architectures: list[str] | None = None output_hidden_states: bool | None = False return_dict: bool | None = True dtype: typing.Union[str, ForwardRef('torch.dtype'), NoneType] = None chunk_size_feed_forward: int = 0 is_encoder_decoder: bool = False id2label: dict[int, str] | dict[str, str] | None = None label2id: dict[str, int] | dict[str, str] | None = None problem_type: typing.Optional[typing.Literal['regression', 'single_label_classification', 'multi_label_classification']] = None text_config: dict | transformers.models.clip.configuration_clip.CLIPTextConfig | None = None vision_config: dict | transformers.models.clip.configuration_clip.CLIPVisionConfig | None = None projection_dim: int | None = 512 logit_scale_init_value: float | int | None = 2.6592 initializer_factor: float | None = 1.0 )
参数
- text_config (
dict, 可选) — 用于初始化 CLIPTextConfig 的配置选项字典。 - vision_config (
dict, 可选) — 用于初始化 CLIPVisionConfig 的配置选项字典。 - projection_dim (
int, 可选, 默认为512) — 文本和视觉投影层的维度。 - logit_scale_init_value (
float | int, 可选, 默认为 2.6592) — logit_scale 参数的初始值。默认值按原始 CLIP 实现设定。 - initializer_factor (
float, 可选, 默认为1.0) — 用于初始化所有权重矩阵的因子(应保持为 1,内部用于初始化测试)。
这是存储 CLIPModel 配置的配置类。它用于根据指定的参数实例化 Clip 模型,从而定义模型架构。使用默认值实例化配置将产生与 openai/clip-vit-base-patch32 类似的配置。
配置对象继承自 PreTrainedConfig,可用于控制模型输出。阅读 PreTrainedConfig 的文档以获取更多信息。
示例
>>> from transformers import CLIPConfig, CLIPModel
>>> # Initializing a CLIPConfig with openai/clip-vit-base-patch32 style configuration
>>> configuration = CLIPConfig()
>>> # Initializing a CLIPModel (with random weights) from the openai/clip-vit-base-patch32 style configuration
>>> model = CLIPModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
>>> # We can also initialize a CLIPConfig from a CLIPTextConfig and a CLIPVisionConfig
>>> from transformers import CLIPTextConfig, CLIPVisionConfig
>>> # Initializing a CLIPText and CLIPVision configuration
>>> config_text = CLIPTextConfig()
>>> config_vision = CLIPVisionConfig()
>>> config = CLIPConfig(text_config=config_text, vision_config=config_vision)CLIPTextConfig
class transformers.CLIPTextConfig
< 源码 >( transformers_version: str | None = None architectures: list[str] | None = None output_hidden_states: bool | None = False return_dict: bool | None = True dtype: typing.Union[str, ForwardRef('torch.dtype'), NoneType] = None chunk_size_feed_forward: int = 0 is_encoder_decoder: bool = False id2label: dict[int, str] | dict[str, str] | None = None label2id: dict[str, int] | dict[str, str] | None = None problem_type: typing.Optional[typing.Literal['regression', 'single_label_classification', 'multi_label_classification']] = None vocab_size: int = 49408 hidden_size: int = 512 intermediate_size: int = 2048 projection_dim: int | None = 512 num_hidden_layers: int = 12 num_attention_heads: int = 8 max_position_embeddings: int = 77 hidden_act: str = 'quick_gelu' layer_norm_eps: float | None = 1e-05 attention_dropout: int | float | None = 0.0 initializer_range: float = 0.02 initializer_factor: float | None = 1.0 pad_token_id: int | None = 1 bos_token_id: int | None = 49406 eos_token_id: int | list[int] | None = 49407 )
参数
- vocab_size (
int, 可选, 默认为49408) — 模型词汇表大小。定义了input_ids可表示的不同 token 的数量。 - hidden_size (
int, 可选, 默认为512) — 隐藏表示的维度。 - intermediate_size (
int, 可选, 默认为2048) — MLP 表示的维度。 - projection_dim (
int, 可选, 默认为512) — 文本和视觉投影层的维度。 - num_hidden_layers (
int, 可选, 默认为12) — Transformer 解码器中的隐藏层数量。 - num_attention_heads (
int, 可选, 默认为8) — Transformer 解码器中每个注意力层的注意力头数量。 - max_position_embeddings (
int, 可选, 默认为77) — 此模型可能使用的最大序列长度。 - hidden_act (
str, 可选, 默认为quick_gelu) — 解码器中的非线性激活函数(函数或字符串)。例如:"gelu"、"relu"、"silu"等。 - layer_norm_eps (
float, 可选, 默认为1e-05) — 层归一化层使用的 epsilon 值。 - attention_dropout (
Union[int, float], 可选, 默认为0.0) — 注意力概率的 dropout 比率。 - initializer_range (
float, 可选, 默认为0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 - initializer_factor (
float, 可选, 默认为1.0) — 用于初始化所有权重矩阵的因子(应保持为 1,仅在内部初始化测试时使用)。 - pad_token_id (
int, 可选, 默认为1) — 词表中用于填充(padding)的 token ID。 - bos_token_id (
int, 可选, 默认为49406) — 词表中用于序列开始(beginning-of-stream)的 token ID。 - eos_token_id (
Union[int, list[int]], 可选, 默认为49407) — 词表中用于序列结束(end-of-stream)的 token ID。
这是存储 CLIPModel 配置的配置类。它用于根据指定的参数实例化 Clip 模型,从而定义模型架构。使用默认值实例化配置将产生与 openai/clip-vit-base-patch32 类似的配置。
配置对象继承自 PreTrainedConfig,可用于控制模型输出。阅读 PreTrainedConfig 的文档以获取更多信息。
示例
>>> from transformers import CLIPTextConfig, CLIPTextModel
>>> # Initializing a CLIPTextConfig with openai/clip-vit-base-patch32 style configuration
>>> configuration = CLIPTextConfig()
>>> # Initializing a CLIPTextModel (with random weights) from the openai/clip-vit-base-patch32 style configuration
>>> model = CLIPTextModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.configCLIPVisionConfig
class transformers.CLIPVisionConfig
< 源代码 >( transformers_version: str | None = None architectures: list[str] | None = None output_hidden_states: bool | None = False return_dict: bool | None = True dtype: typing.Union[str, ForwardRef('torch.dtype'), NoneType] = None chunk_size_feed_forward: int = 0 is_encoder_decoder: bool = False id2label: dict[int, str] | dict[str, str] | None = None label2id: dict[str, int] | dict[str, str] | None = None problem_type: typing.Optional[typing.Literal['regression', 'single_label_classification', 'multi_label_classification']] = None hidden_size: int = 768 intermediate_size: int = 3072 projection_dim: int = 512 num_hidden_layers: int = 12 num_attention_heads: int = 12 num_channels: int = 3 image_size: int | list[int] | tuple[int, int] | None = 224 patch_size: int | list[int] | tuple[int, int] | None = 32 hidden_act: str = 'quick_gelu' layer_norm_eps: float = 1e-05 attention_dropout: int | float | None = 0.0 initializer_range: float = 0.02 initializer_factor: float = 1.0 )
参数
- hidden_size (
int, 可选, 默认为768) — 隐藏状态表示的维度。 - intermediate_size (
int, 可选, 默认为3072) — MLP 表示的维度。 - projection_dim (
int, 可选, 默认为512) — 文本和视觉投影层的维度。 - num_hidden_layers (
int, 可选, 默认为12) — Transformer 解码器中的隐藏层数量。 - num_attention_heads (
int, 可选, 默认为12) — Transformer 解码器中每个注意力层的注意力头数量。 - num_channels (
int, 可选, 默认为3) — 输入通道的数量。 - image_size (
Union[int, list[int], tuple[int, int]], 可选, 默认为224) — 每张图像的大小(分辨率)。 - patch_size (
Union[int, list[int], tuple[int, int]], 可选, 默认为32) — 每个补丁(patch)的大小(分辨率)。 - hidden_act (
str, 可选, 默认为quick_gelu) — 解码器中的非线性激活函数(函数或字符串)。例如:"gelu"、"relu"、"silu"等。 - layer_norm_eps (
float, 可选, 默认为1e-05) — 层归一化(layer normalization)层所使用的 epsilon 值。 - attention_dropout (
Union[int, float], 可选, 默认为0.0) — 注意力概率的 dropout 比率。 - initializer_range (
float, 可选, 默认为0.02) — 用于初始化所有权重矩阵的 truncated_normal_initializer 的标准差。 - initializer_factor (
float, 可选, 默认为1.0) — 用于初始化所有权重矩阵的因子(应保持为 1,仅在内部初始化测试时使用)。
这是存储 CLIPModel 配置的配置类。它用于根据指定的参数实例化 Clip 模型,从而定义模型架构。使用默认值实例化配置将产生与 openai/clip-vit-base-patch32 类似的配置。
配置对象继承自 PreTrainedConfig,可用于控制模型输出。阅读 PreTrainedConfig 的文档以获取更多信息。
示例
>>> from transformers import CLIPVisionConfig, CLIPVisionModel
>>> # Initializing a CLIPVisionConfig with openai/clip-vit-base-patch32 style configuration
>>> configuration = CLIPVisionConfig()
>>> # Initializing a CLIPVisionModel (with random weights) from the openai/clip-vit-base-patch32 style configuration
>>> model = CLIPVisionModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.configCLIPTokenizer
class transformers.CLIPTokenizer
< 源代码 >( vocab: str | dict[str, int] | None = None merges: str | list[str] | None = None unk_token: str = '<|endoftext|>' bos_token: str = '<|startoftext|>' eos_token: str = '<|endoftext|>' pad_token: str = '<|endoftext|>' **kwargs )
参数
- vocab (
str,dict或list, 可选) — 用于分词器的词汇表字典。 - merges (
str或list, 可选) — 用于 BPE 分词器的合并列表。 - unk_token (
str, 可选, 默认为"<|endoftext|>") — 未知 token。词汇表中不存在的 token 无法转换为 ID,会被设置为该未知 token。 - bos_token (
str, 可选, 默认为"<|startoftext|>") — 序列起始 token。 - eos_token (
str, 可选, 默认为"<|endoftext|>") — 序列结束 token。 - pad_token (
str, 可选, 默认为"<|endoftext|>") — 用于填充的 token,例如在对不同长度的序列进行批处理时。
构建一个 CLIP 分词器(由 HuggingFace 的 tokenizers 库提供支持)。基于字节级字节对编码(Byte-Level BPE)。
该分词器继承自 TokenizersBackend,后者包含其大部分主要方法。用户应参考该父类以获取有关这些方法的更多信息。
get_special_tokens_mask
< 源代码 >( token_ids_0: list[int] token_ids_1: list[int] | None = None already_has_special_tokens: bool = False ) → 一个介于 0 和 1 之间的整数列表
Retrieve sequence ids from a token list that has no special tokens added.
For fast tokenizers, data collators call this with already_has_special_tokens=True to build a mask over an already-formatted sequence. In that case, we compute the mask by checking membership in all_special_ids.
CLIPTokenizerFast
class transformers.CLIPTokenizer
< 源代码 >( vocab: str | dict[str, int] | None = None merges: str | list[str] | None = None unk_token: str = '<|endoftext|>' bos_token: str = '<|startoftext|>' eos_token: str = '<|endoftext|>' pad_token: str = '<|endoftext|>' **kwargs )
参数
- vocab (
str,dict或list, 可选) — 用于分词器的词汇表字典。 - merges (
str或list, 可选) — 用于 BPE 分词器的合并列表。 - unk_token (
str, 可选, 默认为"<|endoftext|>") — 未知 token。词汇表中不存在的 token 无法转换为 ID,会被设置为该未知 token。 - bos_token (
str, 可选, 默认为"<|startoftext|>") — 序列起始 token。 - eos_token (
str, 可选, 默认为"<|endoftext|>") — 序列结束 token。 - pad_token (
str, 可选, 默认为"<|endoftext|>") — 用于填充的 token,例如在对不同长度的序列进行批处理时。
构建一个 CLIP 分词器(由 HuggingFace 的 tokenizers 库提供支持)。基于字节级字节对编码(Byte-Level BPE)。
该分词器继承自 TokenizersBackend,后者包含其大部分主要方法。用户应参考该父类以获取有关这些方法的更多信息。
CLIPImageProcessor
class transformers.CLIPImageProcessor
< 源代码 >( **kwargs: typing_extensions.Unpack[transformers.processing_utils.ImagesKwargs] )
参数
- ***kwargs** (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 在上面列出;有关支持参数的完整列表,请参阅 TypedDict 类。
构造一个 CLIPImageProcessor 图像处理器。
preprocess
< 源代码 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.processing_utils.ImagesKwargs] ) → ~image_processing_base.BatchFeature
参数
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list[PIL.Image.Image], list[numpy.ndarray], list[torch.Tensor]]) — 要预处理的图像。期望单个或一批像素值范围在 0 到 255 之间的图像。如果传入像素值在 0 到 1 之间的图像,请设置do_rescale=False。 - return_tensors (
str或 TensorType, 可选) — 如果设置为'pt',则返回堆叠的张量,否则返回张量列表。 - ***kwargs** (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 在上面列出;有关支持参数的完整列表,请参阅 TypedDict 类。
返回
~image_processing_base.BatchFeature
- data (
dict) — 由 call 方法返回的列表/数组/张量字典(“pixel_values”等)。 - tensor_type (
Union[None, str, TensorType], optional) — 您可以在此处提供 tensor_type 以在初始化时将整数列表转换为 PyTorch/Numpy 张量。
CLIPImageProcessorPil
class transformers.CLIPImageProcessorPil
< 源代码 >( **kwargs: typing_extensions.Unpack[transformers.processing_utils.ImagesKwargs] )
参数
- ***kwargs** (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 在上面列出;有关支持参数的完整列表,请参阅 TypedDict 类。
构造一个 CLIPImageProcessor 图像处理器。
preprocess
< 源代码 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] *args **kwargs: typing_extensions.Unpack[transformers.processing_utils.ImagesKwargs] ) → ~image_processing_base.BatchFeature
参数
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list[PIL.Image.Image], list[numpy.ndarray], list[torch.Tensor]]) — 要预处理的图像。期望单个或一批像素值范围在 0 到 255 之间的图像。如果传入像素值在 0 到 1 之间的图像,请设置do_rescale=False。 - return_tensors (
str或 TensorType, 可选) — 如果设置为'pt',则返回堆叠的张量,否则返回张量列表。 - ***kwargs** (ImagesKwargs, 可选) — 额外的图像预处理选项。模型特定的 kwargs 在上面列出;有关支持参数的完整列表,请参阅 TypedDict 类。
返回
~image_processing_base.BatchFeature
- data (
dict) — 由 call 方法返回的列表/数组/张量字典(“pixel_values”等)。 - tensor_type (
Union[None, str, TensorType], optional) — 您可以在此处提供 tensor_type 以在初始化时将整数列表转换为 PyTorch/Numpy 张量。
CLIPProcessor
class transformers.CLIPProcessor
< 源代码 >( image_processor= None tokenizer= None **kwargs )
构造一个将图像处理器和分词器封装为单一处理器的 CLIPProcessor。
CLIPProcessor 提供了 CLIPImageProcessor 和 CLIPTokenizer 的所有功能。有关更多信息,请参阅 ~CLIPImageProcessor 和 ~CLIPTokenizer。
__call__
< 源代码 >( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor'], NoneType] = None text: str | list[str] | list[list[str]] | None = None videos: typing.Union[list['PIL.Image.Image'], numpy.ndarray, ForwardRef('torch.Tensor'), list[numpy.ndarray], list['torch.Tensor'], list[list['PIL.Image.Image']], list[list[numpy.ndarray]], list[list['torch.Tensor']], transformers.video_utils.URL, list[transformers.video_utils.URL], list[list[transformers.video_utils.URL]], transformers.video_utils.Path, list[transformers.video_utils.Path], list[list[transformers.video_utils.Path]], NoneType] = None audio: typing.Union[numpy.ndarray, ForwardRef('torch.Tensor'), collections.abc.Sequence[numpy.ndarray], collections.abc.Sequence['torch.Tensor'], NoneType] = None **kwargs: typing_extensions.Unpack[transformers.processing_utils.ProcessingKwargs] )
参数
- images (
Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list[PIL.Image.Image], list[numpy.ndarray], list[torch.Tensor]], 可选) — 要预处理的图像。期望单个或一批像素值范围在 0 到 255 之间的图像。如果传入像素值在 0 到 1 之间的图像,请设置do_rescale=False。 - text (
Union[str, list[str], list[list[str]]], 可选) — 要编码的序列或序列批次。每个序列可以是一个字符串或字符串列表(预分词字符串)。如果您传入预分词输入,请设置is_split_into_words=True以避免批处理输入带来的歧义。 - videos (
Union[list[PIL.Image.Image], numpy.ndarray, torch.Tensor, list[numpy.ndarray], list[torch.Tensor], list[list[PIL.Image.Image]], list[list[numpy.ndarray]], list[list[torch.Tensor]], ~video_utils.URL, list[~video_utils.URL], list[list[~video_utils.URL]], ~video_utils.Path, list[~video_utils.Path], list[list[~video_utils.Path]]], 可选) — 要预处理的视频。期望单个或一批像素值范围在 0 到 255 之间的视频。如果传入像素值在 0 到 1 之间的视频,请设置do_rescale=False。 - audio (
Union[numpy.ndarray, torch.Tensor, collections.abc.Sequence[numpy.ndarray], collections.abc.Sequence[torch.Tensor]], 可选) — 要准备的音频或音频批次。每个音频可以是一个 NumPy 数组或 PyTorch 张量。对于 NumPy 数组/PyTorch 张量,每个音频的形状应为 (C, T),其中 C 是通道数,T 是音频的采样长度。 - return_tensors (
str或 TensorType,可选) — 如果设置,将返回特定框架的张量。可接受的值为:'pt':返回 PyTorchtorch.Tensor对象。'np':返回 NumPynp.ndarray对象。
- **kwargs (ProcessingKwargs,可选) — 针对每种模态(文本、图像、视频、音频)的额外处理选项。模型特定的参数列在上面;有关支持参数的完整列表,请参阅 TypedDict 类。
CLIPModel
class transformers.CLIPModel
< 源码 >( config: CLIPConfig )
参数
- config (CLIPConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法以加载模型权重。
裸 CLIP 模型,输出原始隐藏状态,顶部没有任何特定的头。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。
forward
< 源码 >( input_ids: torch.LongTensor | None = None pixel_values: torch.FloatTensor | None = None attention_mask: torch.Tensor | None = None position_ids: torch.LongTensor | None = None return_loss: bool | None = None interpolate_pos_encoding: bool = False **kwargs: typing_extensions.Unpack[transformers.utils.generic.TransformersKwargs] ) → CLIPOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.LongTensor,形状为(batch_size, sequence_length),可选) — 词表中输入序列标记的索引。默认情况下将忽略填充(Padding)。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- pixel_values (
torch.FloatTensor,形状为(batch_size, num_channels, image_size, image_size),可选) — 对应于输入图像的张量。像素值可以使用 CLIPImageProcessor 获取。有关详细信息,请参阅CLIPImageProcessor.__call__()(CLIPProcessor 使用 CLIPImageProcessor 来处理图像)。 - attention_mask (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 用于避免对填充标记索引执行注意力机制的掩码。掩码值选自[0, 1]:- 1 表示未掩码的标记,
- 0 表示已掩码的标记。
- position_ids (
torch.LongTensor,形状为(batch_size, sequence_length),可选) — 每个输入序列标记在位置嵌入中的位置索引。选自[0, config.n_positions - 1]范围。 - return_loss (
bool,可选) — 是否返回对比损失(contrastive loss)。 - interpolate_pos_encoding (
bool,可选,默认为False) — 是否对预训练的位置编码进行插值。
返回
CLIPOutput 或 tuple(torch.FloatTensor)
一个 CLIPOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(CLIPConfig)和输入包含各种元素。
CLIPModel 的前向传播方法,覆盖了 __call__ 特殊方法。
虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用
Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
- loss (
torch.FloatTensor,形状为(1,), 可选, 当return_loss为True时返回) — 图像-文本相似度的对比损失。 - logits_per_image (
torch.FloatTensorof shape(image_batch_size, text_batch_size)) —image_embeds和text_embeds之间的缩放点积分数。这代表了图像-文本相似度分数。 - logits_per_text (
torch.FloatTensorof shape(text_batch_size, image_batch_size)) —text_embeds和image_embeds之间的缩放点积分数。这代表了文本-图像相似度分数。 - text_embeds (
torch.FloatTensor,形状为(batch_size, output_dim)) — 通过将投影层应用于 CLIPTextModel 的池化输出而获得的文本嵌入。 - image_embeds (
torch.FloatTensor,形状为(batch_size, output_dim)) — 通过将投影层应用于 CLIPVisionModel 的池化输出而获得的图像嵌入。 - text_model_output (
~modeling_outputs.BaseModelOutputWithPooling,默认为None) — CLIPTextModel 的输出。 - vision_model_output (
~modeling_outputs.BaseModelOutputWithPooling,默认为None) — CLIPVisionModel 的输出。
示例
>>> import torch
>>> from transformers import AutoProcessor, CLIPModel
>>> from transformers.image_utils import load_image
>>> model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
>>> processor = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = load_image(url)
>>> inputs = processor(
... text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True
... )
>>> with torch.inference_mode():
... outputs = model(**inputs)
>>> logits_per_image = outputs.logits_per_image # this is the image-text similarity score
>>> probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilitiesget_text_features
< 源码 >( input_ids: Tensor attention_mask: torch.Tensor | None = None position_ids: torch.Tensor | None = None **kwargs: typing_extensions.Unpack[transformers.utils.generic.TransformersKwargs] ) → BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.Tensor,形状为(batch_size, sequence_length)) — 词表中输入序列标记的索引。默认情况下将忽略填充。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 用于避免对填充标记索引执行注意力机制的掩码。掩码值选自[0, 1]:- 1 表示未掩码的标记,
- 0 表示已掩码的标记。
- position_ids (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 每个输入序列标记在位置嵌入中的位置索引。选自[0, config.n_positions - 1]范围。
返回
BaseModelOutputWithPooling or tuple(torch.FloatTensor)
一个 BaseModelOutputWithPooling 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(CLIPConfig)和输入包含各种元素。
last_hidden_state (
torch.FloatTensor, 形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。pooler_output (
torch.FloatTensor,形状为(batch_size, hidden_size)) — 序列第一个 token(分类 token)在进一步通过用于辅助预训练任务的层后的最后一个隐藏状态。例如,对于 BERT 系列模型,这会返回经过线性层和 tanh 激活函数处理后的分类 token。线性层的权重是通过预训练期间的下一句预测(分类)目标来训练的。hidden_states (
tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或当config.output_hidden_states=True时返回) —torch.FloatTensor的元组(一个用于嵌入层的输出,如果模型有嵌入层;+一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (
tuple(torch.FloatTensor), optional, 当传递output_attentions=True或当config.output_attentions=True时返回) —torch.FloatTensor的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> import torch
>>> from transformers import AutoTokenizer, CLIPModel
>>> model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
>>> tokenizer = AutoTokenizer.from_pretrained("openai/clip-vit-base-patch32")
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")
>>> with torch.inference_mode():
... text_features = model.get_text_features(**inputs)get_image_features
< 源码 >( pixel_values: FloatTensor interpolate_pos_encoding: bool = False **kwargs: typing_extensions.Unpack[transformers.utils.generic.TransformersKwargs] ) → BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor,形状为(batch_size, num_channels, image_size, image_size)) — 对应于输入图像的张量。像素值可以使用 CLIPImageProcessor 获取。有关详细信息,请参阅CLIPImageProcessor.__call__()(CLIPProcessor 使用 CLIPImageProcessor 来处理图像)。 - interpolate_pos_encoding (
bool,可选,默认为False) — 是否对预训练的位置编码进行插值。
返回
BaseModelOutputWithPooling or tuple(torch.FloatTensor)
一个 BaseModelOutputWithPooling 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(CLIPConfig)和输入包含各种元素。
last_hidden_state (
torch.FloatTensor, 形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。pooler_output (
torch.FloatTensor,形状为(batch_size, hidden_size)) — 序列第一个 token(分类 token)在进一步通过用于辅助预训练任务的层后的最后一个隐藏状态。例如,对于 BERT 系列模型,这会返回经过线性层和 tanh 激活函数处理后的分类 token。线性层的权重是通过预训练期间的下一句预测(分类)目标来训练的。hidden_states (
tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或当config.output_hidden_states=True时返回) —torch.FloatTensor的元组(一个用于嵌入层的输出,如果模型有嵌入层;+一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (
tuple(torch.FloatTensor), optional, 当传递output_attentions=True或当config.output_attentions=True时返回) —torch.FloatTensor的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> import torch
>>> from transformers import AutoProcessor, CLIPModel
>>> from transformers.image_utils import load_image
>>> model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
>>> processor = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = load_image(url)
>>> inputs = processor(images=image, return_tensors="pt")
>>> with torch.inference_mode():
... image_features = model.get_image_features(**inputs)CLIPTextModel
class transformers.CLIPTextModel
< 源码 >( config: CLIPTextConfig )
参数
- config (CLIPTextConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。请查看 from_pretrained() 方法以加载模型权重。
来自 CLIP 的文本模型,顶部没有任何头或投影层。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。
forward
< 源码 >( input_ids: torch.Tensor | None = None attention_mask: torch.Tensor | None = None position_ids: torch.Tensor | None = None **kwargs: typing_extensions.Unpack[transformers.utils.generic.TransformersKwargs] ) → BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 词表中输入序列标记的索引。默认情况下将忽略填充。可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 用于避免对填充标记索引执行注意力机制的掩码。掩码值选自[0, 1]:- 1 表示未掩码的标记,
- 0 表示已掩码的标记。
- position_ids (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 每个输入序列 token 在位置嵌入(position embeddings)中的位置索引。选自范围[0, config.n_positions - 1]。
返回
BaseModelOutputWithPooling or tuple(torch.FloatTensor)
一个 BaseModelOutputWithPooling 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(CLIPConfig)和输入包含各种元素。
CLIPTextModel 的 forward 方法,重写了 __call__ 特殊方法。
虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用
Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
last_hidden_state (
torch.FloatTensor, 形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。pooler_output (
torch.FloatTensor,形状为(batch_size, hidden_size)) — 序列第一个 token(分类 token)在进一步通过用于辅助预训练任务的层后的最后一个隐藏状态。例如,对于 BERT 系列模型,这会返回经过线性层和 tanh 激活函数处理后的分类 token。线性层的权重是通过预训练期间的下一句预测(分类)目标来训练的。hidden_states (
tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或当config.output_hidden_states=True时返回) —torch.FloatTensor的元组(一个用于嵌入层的输出,如果模型有嵌入层;+一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (
tuple(torch.FloatTensor), optional, 当传递output_attentions=True或当config.output_attentions=True时返回) —torch.FloatTensor的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> from transformers import AutoTokenizer, CLIPTextModel
>>> model = CLIPTextModel.from_pretrained("openai/clip-vit-base-patch32")
>>> tokenizer = AutoTokenizer.from_pretrained("openai/clip-vit-base-patch32")
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output # pooled (EOS token) statesCLIPTextModelWithProjection
class transformers.CLIPTextModelWithProjection
< 源代码 >( config: CLIPTextConfig )
参数
- config (CLIPTextConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
带有投影层(池化输出之上的线性层)的 CLIP 模型。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。
forward
< 源代码 >( input_ids: torch.Tensor | None = None attention_mask: torch.Tensor | None = None position_ids: torch.Tensor | None = None **kwargs: typing_extensions.Unpack[transformers.utils.generic.TransformersKwargs] ) → CLIPTextModelOutput 或 tuple(torch.FloatTensor)
参数
- input_ids (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 词汇表中输入序列 token 的索引。默认情况下填充将被忽略。索引可以使用 AutoTokenizer 获取。详情请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 用于避免对填充 token 索引执行注意力的掩码。掩码值选自[0, 1]:- 1 表示未被遮罩的 token,
- 0 表示被遮罩的 token。
- position_ids (
torch.Tensor,形状为(batch_size, sequence_length),可选) — 每个输入序列 token 在位置嵌入中的位置索引。选自范围[0, config.n_positions - 1]。
返回
CLIPTextModelOutput 或 tuple(torch.FloatTensor)
CLIPTextModelOutput 或 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(CLIPConfig)和输入,包含各种元素。
CLIPTextModelWithProjection 的 forward 方法,重写了 __call__ 特殊方法。
虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用
Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
text_embeds (
torch.FloatTensor, shape(batch_size, output_dim), 当模型初始化时with_projection=True返回可选) — 通过将投影层应用于 pooler_output 得到的文本嵌入。last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的torch.FloatTensor, 可选,默认为None) — 模型最后一层输出的隐藏状态序列。hidden_states (
tuple[torch.FloatTensor, ...],可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) —torch.FloatTensor的元组(如果模型有嵌入层,则第一个为嵌入输出,其余为每一层的输出),形状为(batch_size, sequence_length, hidden_size)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (
tuple[torch.FloatTensor, ...],可选,当传递output_attentions=True或config.output_attentions=True时返回) —torch.FloatTensor的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> import torch
>>> from transformers import AutoTokenizer, CLIPTextModelWithProjection
>>> model = CLIPTextModelWithProjection.from_pretrained("openai/clip-vit-base-patch32")
>>> tokenizer = AutoTokenizer.from_pretrained("openai/clip-vit-base-patch32")
>>> inputs = tokenizer(["a photo of a cat", "a photo of a dog"], padding=True, return_tensors="pt")
>>> with torch.inference_mode():
... outputs = model(**inputs)
>>> text_embeds = outputs.text_embedsCLIPVisionModelWithProjection
class transformers.CLIPVisionModelWithProjection
< 源代码 >( config: CLIPVisionConfig )
参数
- config (CLIPVisionConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
带有投影层(池化输出之上的线性层)的 CLIP 模型。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。
forward
< 源代码 >( pixel_values: torch.FloatTensor | None = None interpolate_pos_encoding: bool = False **kwargs: typing_extensions.Unpack[transformers.utils.generic.TransformersKwargs] ) → CLIPVisionModelOutput 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor,形状为(batch_size, num_channels, image_size, image_size),可选) — 对应于输入图像的张量。像素值可以使用 CLIPImageProcessor 获取。详情请参阅CLIPImageProcessor.__call__()(CLIPProcessor 使用 CLIPImageProcessor 处理图像)。 - interpolate_pos_encoding (
bool,可选,默认为False) — 是否对预训练的位置编码进行插值。
返回
CLIPVisionModelOutput 或 tuple(torch.FloatTensor)
CLIPVisionModelOutput 或 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(CLIPConfig)和输入,包含各种元素。
CLIPVisionModelWithProjection 的 forward 方法,重写了 __call__ 特殊方法。
虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用
Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
image_embeds (
torch.FloatTensor, shape(batch_size, output_dim), 当模型初始化时with_projection=True返回可选) — 通过将投影层应用于 pooler_output 得到的图像嵌入。last_hidden_state (形状为
(batch_size, sequence_length, hidden_size)的torch.FloatTensor, 可选,默认为None) — 模型最后一层输出的隐藏状态序列。hidden_states (
tuple[torch.FloatTensor, ...],可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) —torch.FloatTensor的元组(如果模型有嵌入层,则第一个为嵌入输出,其余为每一层的输出),形状为(batch_size, sequence_length, hidden_size)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (
tuple[torch.FloatTensor, ...],可选,当传递output_attentions=True或config.output_attentions=True时返回) —torch.FloatTensor的元组(每层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> import torch
>>> from transformers import AutoProcessor, CLIPVisionModelWithProjection
>>> from transformers.image_utils import load_image
>>> model = CLIPVisionModelWithProjection.from_pretrained("openai/clip-vit-base-patch32")
>>> processor = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = load_image(url)
>>> inputs = processor(images=image, return_tensors="pt")
>>> with torch.inference_mode():
... outputs = model(**inputs)
>>> image_embeds = outputs.image_embedsCLIPVisionModel
class transformers.CLIPVisionModel
< 源代码 >( config: CLIPVisionConfig )
参数
- config (CLIPVisionConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
来自 CLIP 的视觉模型,没有任何头部(head)或投影层。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。
forward
< 源代码 >( pixel_values: torch.FloatTensor | None = None interpolate_pos_encoding: bool | None = False **kwargs: typing_extensions.Unpack[transformers.utils.generic.TransformersKwargs] ) → BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.FloatTensor,形状为(batch_size, num_channels, image_size, image_size),可选) — 对应于输入图像的张量。像素值可以使用 CLIPImageProcessor 获取。详情请参阅CLIPImageProcessor.__call__()(CLIPProcessor 使用 CLIPImageProcessor 处理图像)。 - interpolate_pos_encoding (
bool,可选,默认为False) — 是否对预训练的位置编码进行插值。
返回
BaseModelOutputWithPooling or tuple(torch.FloatTensor)
一个 BaseModelOutputWithPooling 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(CLIPConfig)和输入包含各种元素。
CLIPVisionModel 的 forward 方法,重写了 __call__ 特殊方法。
虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用
Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
last_hidden_state (
torch.FloatTensor, 形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层输出的隐藏状态序列。pooler_output (
torch.FloatTensor,形状为(batch_size, hidden_size)) — 序列第一个 token(分类 token)在进一步通过用于辅助预训练任务的层后的最后一个隐藏状态。例如,对于 BERT 系列模型,这会返回经过线性层和 tanh 激活函数处理后的分类 token。线性层的权重是通过预训练期间的下一句预测(分类)目标来训练的。hidden_states (
tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或当config.output_hidden_states=True时返回) —torch.FloatTensor的元组(一个用于嵌入层的输出,如果模型有嵌入层;+一个用于每个层的输出),形状为(batch_size, sequence_length, hidden_size)。模型在每个层输出的隐藏状态以及可选的初始嵌入输出。
attentions (
tuple(torch.FloatTensor), optional, 当传递output_attentions=True或当config.output_attentions=True时返回) —torch.FloatTensor的元组(每个层一个),形状为(batch_size, num_heads, sequence_length, sequence_length)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> from PIL import Image
>>> import httpx
>>> from io import BytesIO
>>> from transformers import AutoProcessor, CLIPVisionModel
>>> model = CLIPVisionModel.from_pretrained("openai/clip-vit-base-patch32")
>>> processor = AutoProcessor.from_pretrained("openai/clip-vit-base-patch32")
>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> with httpx.stream("GET", url) as response:
... image = Image.open(BytesIO(response.read()))
>>> inputs = processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_state = outputs.last_hidden_state
>>> pooled_output = outputs.pooler_output # pooled CLS statesCLIPForImageClassification
class transformers.CLIPForImageClassification
< 源代码 >( config: CLIPConfig )
参数
- config (CLIPConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained() 方法以加载模型权重。
带有图像分类头(patch token 池化最终隐藏状态之上的线性层)的 CLIP 视觉编码器,例如用于 ImageNet。
该模型继承自 PreTrainedModel。请查看超类文档以了解该库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入大小、剪枝头部等)。
此模型也是一个 PyTorch torch.nn.Module 子类。像普通的 PyTorch Module 一样使用它,并参考 PyTorch 文档了解一般用法和行为的所有相关信息。
forward
< 源代码 >( pixel_values: torch.Tensor | None = None labels: torch.Tensor | None = None **kwargs: typing_extensions.Unpack[transformers.utils.generic.TransformersKwargs] ) → ImageClassifierOutput 或 tuple(torch.FloatTensor)
参数
- pixel_values (
torch.Tensor,形状为(batch_size, num_channels, image_size, image_size),可选) — 对应于输入图像的张量。像素值可以使用 CLIPImageProcessor 获取。详细信息请参阅CLIPImageProcessor.__call__()(CLIPProcessor 使用 CLIPImageProcessor 处理图像)。 - labels (
torch.LongTensor,形状为(batch_size,),可选) — 用于计算图像分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方误差损失);如果config.num_labels > 1,则计算分类损失(交叉熵损失)。
返回
ImageClassifierOutput 或 tuple(torch.FloatTensor)
一个 ImageClassifierOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时),根据配置(CLIPConfig)和输入,包含各种元素。
CLIPForImageClassification 的 forward 方法,重写了 __call__ 特殊方法。
虽然 forward pass 的实现需要在此函数中定义,但你应该在之后调用
Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会静默地忽略它们。
loss (形状为
(1,)的torch.FloatTensor,可选,当提供labels时返回) — 分类损失(如果 config.num_labels==1,则为回归损失)。logits (形状为
(batch_size, config.num_labels)的torch.FloatTensor) — 分类(如果 config.num_labels==1,则为回归)分数(SoftMax 之前)。hidden_states (
tuple(torch.FloatTensor), optional, 当传入output_hidden_states=True或当config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(一个用于嵌入层的输出,如果模型有嵌入层,+ 每个阶段的输出)。模型在每个阶段输出的隐藏状态(也称为特征图)。attentions (
tuple(torch.FloatTensor), optional, 当传入output_attentions=True或当config.output_attentions=True时返回) — 形状为(batch_size, num_heads, patch_size, sequence_length)的torch.FloatTensor元组(每个层一个)。注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
示例
>>> from transformers import AutoImageProcessor, CLIPForImageClassification
>>> import torch
>>> from datasets import load_dataset
>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]
>>> image_processor = AutoImageProcessor.from_pretrained("openai/clip-vit-base-patch32")
>>> model = CLIPForImageClassification.from_pretrained("openai/clip-vit-base-patch32")
>>> inputs = image_processor(image, return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...