社区计算机视觉课程文档

零样本学习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

零样本学习

在导论章节之后,我们将详细解释零样本学习(ZSL)。本章旨在涵盖:

  • 各种零样本学习的定义及其区别。
  • 一个使用语义嵌入的零样本学习的深入示例 [1]。

零样本学习与广义零样本学习

零样本学习(ZSL)和广义零样本学习(GZSL)属于一种机器学习算法类型,其中图像分类模型需要对训练中未包含的标签进行分类。ZSL 和 GZSL 非常相似,主要区别在于模型的评估方式 [2]。

对于 ZSL,模型纯粹根据其对未见类图像的分类能力进行评估——只有未见类的观测值被包含在 ZSL 测试数据集中。对于 GZSL,模型在已见类和未见类上都进行评估——这被认为更接近实际使用场景。总的来说,GZSL 更具挑战性,因为模型需要判断观测值属于新类别还是已知类别。

归纳式零样本学习与直推式零样本学习

根据训练数据的类型,零样本学习分为两种:

在归纳式零样本学习(inductive ZSL)中,模型只在包含已见类别的数据集上进行训练,无法访问任何来自未见类别的数据。学习过程侧重于从训练数据中提取和泛化模式,然后将这些模式应用于未见类别的实例分类。这种方法假设在训练期间已见数据和未见数据之间存在明确的分离,强调模型从训练数据泛化到未见类别的能力。

直推式零样本学习(transductive ZSL)的不同之处在于,它允许模型在训练期间访问一些关于未见类别的信息,通常是未见类别的属性或未标记示例,但没有标签。这种方法利用关于未见数据结构的额外信息来训练一个更具泛化能力的模型。

在下一节中,我们将遵循 Google 一篇经典研究论文 [1] 的主要概念,并给出一个归纳式零样本学习的示例。

使用语义嵌入的零样本学习示例

如前一章所述,开发一个成功的 ZSL 模型不仅仅需要图像和类别标签。仅凭图像几乎不可能对未见类别进行分类。ZSL 利用辅助信息,例如语义属性或嵌入,来帮助对来自未见类别的图像进行分类。在深入细节之前,以下是对不熟悉该术语的读者进行的语义嵌入的简短介绍。

什么是语义嵌入?

语义嵌入是语义信息的向量表示,它们承载着数据的含义和解释。例如,通过口头文本传递的信息是一种语义信息。语义信息不仅包括词语或句子的直接含义,还包括语境和文化内涵。

嵌入是指将语义信息映射到实数向量的过程。语义嵌入通常通过无监督机器学习模型学习,例如 Word2Vec [3] 或 GloVe [4]。所有类型的文本信息,例如词语、短语或句子,都可以根据既定程序转换为数值向量。语义嵌入在高维空间中描述词语,其中词语之间的距离和方向反映了它们的语义关系。这使得机器能够通过对词嵌入进行数学运算来理解每个词的使用方式、同义词和语境。

使用语义嵌入实现零样本学习

在训练过程中,ZSL 模型学习将已见类别图像的视觉特征与其对应的语义嵌入关联起来。目标是最小化图像的投影视觉特征与其类别的语义嵌入之间的距离。这个过程有助于模型学习图像与语义信息之间的对应关系。

由于模型已经学会将图像特征投影到语义空间中,它可以通过将未见类图像的特征投影到同一空间并与未见类的嵌入进行比较来尝试分类。对于未见类别的图像,模型会计算其投影嵌入,然后搜索未见类别中最近的语义嵌入。具有最近嵌入的未见类别就是该图像的预测标签。

总而言之,语义嵌入是 ZSL 的核心,使模型能够扩展其分类能力。这种方法允许以更灵活和可扩展的方式对大量的真实世界类别进行分类,而无需标记数据集。

与 CLIP 的比较

ZSL 与 CLIP(对比语言-图像预训练)[5] 之间的关系源于它们共同的目标:使模型能够识别和分类训练数据中不存在的图像类别。然而,CLIP 代表了 ZSL 原理的重大进步和更广泛的应用,它利用了一种新颖的学习和泛化方法。

CLIP 与 ZSL 的关系可以描述为:

  • ZSL 和 CLIP 都旨在将图像分类到训练期间未见过的类别中。然而,传统的 ZSL 方法可能依赖预定义的语义嵌入或属性来弥合已见类别和未见类别之间的差距,而 CLIP 直接从自然语言描述中学习,使其能够泛化到更广泛的任务,而无需任务特定的嵌入。

  • CLIP 是多模态学习的典范,模型从文本和视觉数据中学习。这种方法与 ZSL 一致,即使用辅助信息来提高分类性能。CLIP 通过直接从原始文本和图像中学习,进一步发展了这一概念,使其能够理解和表示视觉内容与描述性语言之间的关系。

零样本学习评估数据集

每年都有新的 ZSL 方法提出,由于评估方法各异,因此很难确定一种优越的方法。标准化评估框架和数据集是评估不同 ZSL 方法的首选。文献 [6] 介绍了经典 ZSL 方法的比较研究。常用的 ZSL 评估数据集包括:

  • 动物属性(AwA)

用于基准迁移学习算法的数据集,特别是基于属性的分类 [7]。它包含 30475 张图像,涵盖 50 个动物类别,每张图像有六种特征表示。

  • 加州理工学院-加州大学圣地亚哥分校鸟类-200-2011(CUB)

用于细粒度视觉分类任务的数据集。它包含 11788 张图像,涵盖 200 个鸟类亚类别。每张图像有一个亚类别标签、15 个部分位置、312 个二进制属性和一个边界框。此外,通过亚马逊 Mechanical Turk 收集了每张图像的十句描述,这些描述经过精心构建,不包含任何亚类别信息。

  • 太阳数据库(SUN)

第一个大规模场景属性数据库。该数据集包含 130519 张图像,涵盖 899 个类别,可用于高级场景理解和细粒度场景识别。

  • 属性 Pascal 和 Yahoo 数据集(aPY)

一个粗粒度数据集,由来自 3 个大类别(动物、物体和车辆)的 15339 张图像组成,进一步分为总共 32 个亚类别。

  • ILSVRC2012/ILSVRC2010(ImNet-2)

ImageNet 大规模视觉识别挑战赛(ILSVRC)评估大规模目标检测和图像分类算法 [8]。

参考文献

  • [1] Frome et al., DeViSE: 一种深度视觉语义嵌入模型, NIPS, (2013)
  • [2] Pourpanah et al., 广义零样本学习方法综述 (2022)。
  • [3] Mikilov et al., 向量空间中词语表示的有效估计, ICLR (2013)。
  • [4] Pennington et al., Glove: 用于词语表示的全局向量, EMNLP (2014)。
  • [5] Radford et al., 从自然语言监督中学习可迁移的视觉模型, arXiv (2021)。
  • [6] Xian et al., 零样本学习 - 好的,坏的,丑的, CVPR (2017)。
  • [7] Lampert et al., 通过类间属性迁移学习检测未见物体类别, CVPR (2009)。
  • [8] Deng et al., ImageNet: 一个大规模分层图像数据库, CVPR (2012)。
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.