ALIGN

概述

ALIGN 模型在 Chao Jia, Yinfei Yang, Ye Xia, Yi-Ting Chen, Zarana Parekh, Hieu Pham, Quoc V. Le, Yunhsuan Sung, Zhen Li, Tom Duerig 的论文 Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision 中提出。ALIGN 是一个多模态视觉和语言模型。它可以用于图像-文本相似度和零样本图像分类。ALIGN 采用双编码器架构，使用 EfficientNet 作为其视觉编码器，BERT 作为其文本编码器，并通过对比学习来学习对齐视觉和文本表示。与之前的工作不同，ALIGN 利用了大量的噪声数据集，并表明语料库的规模可以用于通过一个简单的方案实现 SOTA 表示。

论文摘要如下：

预训练表示对于许多 NLP 和感知任务变得至关重要。虽然 NLP 中的表示学习已经过渡到在没有人工标注的原始文本上进行训练，但视觉和视觉-语言表示仍然严重依赖于经过整理的训练数据集，这些数据集成本高昂或需要专业知识。对于视觉应用，表示主要使用带有显式类别标签的数据集（如 ImageNet 或 OpenImages）进行学习。对于视觉-语言，流行的数据集（如 Conceptual Captions、MSCOCO 或 CLIP）都涉及到一个重要的数据收集（和清理）过程。这种昂贵的整理过程限制了数据集的大小，从而阻碍了训练模型的扩展。在本文中，我们利用了一个包含超过十亿图像 alt-text 对的噪声数据集，这些数据集是在没有 Conceptual Captions 数据集中昂贵的过滤或后处理步骤的情况下获得的。一个简单的双编码器架构学习使用对比损失来对齐图像和文本对的视觉和语言表示。我们表明，我们语料库的规模可以弥补其噪声，并即使使用如此简单的学习方案也能实现最先进的表示。我们的视觉表示在转移到诸如 ImageNet 和 VTAB 等分类任务时，也取得了强大的性能。对齐的视觉和语言表示实现了零样本图像分类，并且即使与更复杂的交叉注意力模型相比，也在 Flickr30K 和 MSCOCO 图像-文本检索基准测试中设置了新的最先进的结果。这些表示还支持使用复杂文本和文本 + 图像查询进行跨模态搜索。

此模型由 Alara Dirik 贡献。原始代码未发布，此实现基于 Kakao Brain 基于原始论文的实现。

使用示例

ALIGN 使用 EfficientNet 获取视觉特征，并使用 BERT 获取文本特征。然后将文本和视觉特征都投影到具有相同维度的潜在空间。投影后的图像和文本特征之间的点积然后用作相似度得分。

AlignProcessor 将 EfficientNetImageProcessor 和 BertTokenizer 包装到单个实例中，以同时编码文本和预处理图像。以下示例展示了如何使用 AlignProcessor 和 AlignModel 获取图像-文本相似度得分。

import requests
import torch
from PIL import Image
from transformers import AlignProcessor, AlignModel

processor = AlignProcessor.from_pretrained("kakaobrain/align-base")
model = AlignModel.from_pretrained("kakaobrain/align-base")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
candidate_labels = ["an image of a cat", "an image of a dog"]

inputs = processor(images=image ,text=candidate_labels, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)

# this is the image-text similarity score
logits_per_image = outputs.logits_per_image

# we can take the softmax to get the label probabilities
probs = logits_per_image.softmax(dim=1)
print(probs)

资源

以下是 Hugging Face 官方和社区（🌎 表示）资源列表，可帮助您开始使用 ALIGN。

关于 ALIGN 和 COYO-700M 数据集的博客文章。
一个零样本图像分类演示。
kakaobrain/align-base 模型的模型卡。

如果您有兴趣提交资源以包含在此处，请随时打开 Pull Request，我们将对其进行审核。该资源最好展示一些新的东西，而不是重复现有资源。

Transformers

ALIGN

概述

使用示例

资源

AlignConfig

类 transformers.AlignConfig

from_text_vision_configs

AlignTextConfig

class transformers.AlignTextConfig

AlignVisionConfig

class transformers.AlignVisionConfig

AlignProcessor

class transformers.AlignProcessor

batch_decode

decode

AlignModel

class transformers.AlignModel

forward

get_text_features

get_image_features

AlignTextModel

class transformers.AlignTextModel

forward

AlignVisionModel

class transformers.AlignVisionModel

forward