社区计算机视觉课程文档
合成数据集
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
合成数据集
简介
欢迎来到计算机视觉中合成数据集的迷人世界!随着我们从经典的无监督方法过渡到先进的深度学习技术,对海量多样化数据集的需求呈指数级增长。合成数据集已成为训练最先进模型的关键资源,提供了现实世界中往往不切实际或无法收集的大量数据。在本节中,我们将探讨一些最具影响力的合成数据集、它们的应用以及它们如何塑造计算机视觉的未来。
低级计算机视觉问题
光流和运动分析
光流和运动分析在理解图像动态方面至关重要。以下是一些对该领域取得进展做出重大贡献的数据集:
数据集名称 | 年份 | 描述 | 论文 | 其他链接 |
---|---|---|---|---|
Middlebury | 2021年(最新发布) | Middlebury立体数据集包含高分辨率立体序列,具有复杂的几何形状和像素级精确的真实视差数据。真实视差是使用结构光技术获得的,无需校准光投影仪。 | 光流数据库和评估方法(撰写时引用3192次) | Papers with Code - 网站 |
Playing for Benchmarks | 2017 | 超过25万帧高分辨率视频,所有都标注了高级任务(如光流估计和视觉里程计)的真实数据,也标注了低级任务的真实数据。 | Playing for benchmarks | 网站 |
MPI-Sintel | 2012 | 用于光流的合成数据集。MPI-Sintel的主要特点是它包含具有不同渲染设置、不同质量和复杂度的相同场景;这种方法可以更深入地了解不同的光流算法在何处失效。(论文引用) | 用于光流评估的自然开源电影(撰写时引用551次) | 网站 |
立体图像匹配
立体图像匹配涉及识别同一场景不同图像中的对应元素。以下数据集在该领域发挥了重要作用:
名称 | 年份 | 描述 | 论文 | 其他链接 |
---|---|---|---|---|
Flying Chairs | 2015 | 2.2万对带真实光流的帧 | 使用卷积网络学习光流。 | |
Flying Chairs 3D | 2015 | 2.2万张立体帧 | 用于训练卷积网络进行视差、光流和场景流估计的大型数据集。 | |
Driving | 2015 | 4392张立体帧 | 用于训练卷积网络进行视差、光流和场景流估计的大型数据集。 | |
Monkaa | 2015 | 8591张立体帧 | 用于训练卷积网络进行视差、光流和场景流估计的大型数据集。 | |
Middlebury 2014 | 2014 | 33个高分辨率立体数据集 | 具有亚像素级真实度的高分辨率立体数据集 | |
Tsukuba Stereo | 2012 | 该数据集包含1800对立体图像,并附带真实视差图、遮挡图和不连续图。 | 迈向模拟驱动的立体视觉系统 | 项目 |
高级计算机视觉问题
自动驾驶中的语义分割
语义分割对于自动驾驶车辆安全地解释和导航其周围环境至关重要。这些数据集为实现此目的提供了丰富、带注释的数据:
名称 | 年份 | 描述 | 论文 | 其他链接 | |
---|---|---|---|---|---|
Virtual KITTI 2 | 2020 | 虚拟世界作为多目标跟踪分析的代理 | Virtual KITTI 2 | 网站 | |
ApolloScape | 2019 | 与现有来自真实场景的公共数据集(例如 KITTI [2] 或 Cityscapes [3])相比,ApolloScape 包含更大更丰富的标注,包括每个站点的整体语义密集点云、立体图像、像素级语义标注、车道线标注、实例分割、3D 汽车实例、来自多个站点、城市和不同时间段的各种驾驶视频的每帧高精度位置。 | ApolloScape 自动驾驶开放数据集及其应用 | 网站 | |
Driving in the Matrix | 2017 | “Driving in the Matrix”的核心思想是使用模拟引擎生成的照片级真实计算机图像来快速生成带注释的数据。 | Driving in the Matrix: 虚拟世界能否取代人工标注以完成真实世界任务? | GitHub | |
CARLA | 2017 | CARLA (CAR Learning to Act) 是一个用于城市驾驶的开放模拟器,作为虚幻引擎4的开源层开发。在技术上,它与虚幻引擎4上的一个开源层类似,提供RGB摄像机(位置可自定义)形式的传感器、真实深度图、具有12个为驾驶设计的语义类别(道路、车道标记、交通标志、人行道等)的真实语义分割图、环境中动态物体的边界框,以及代理自身(车辆位置和方向)的测量。 | CARLA:一个开放的城市驾驶模拟器 | 网站 | |
Synthia | 2016 | 用于城市场景语义分割的大量合成图像集合。SYNTHIA包含从虚拟城市渲染的光真实帧集合,并附带13个类别的精确像素级语义标注:杂项、天空、建筑、道路、人行道、栅栏、植被、杆、汽车、标志、行人、骑车人、车道标记。 | SYNTHIA数据集:用于城市场景语义分割的大量合成图像集合 | 网站 | |
GTA5 | 2016 | GTA5数据集包含24966张带像素级语义标注的合成图像。这些图像是使用开放世界视频游戏Grand Theft Auto 5渲染的,全部来自美国风格虚拟城市街道的汽车视角。19个语义类别与Cityscapes数据集的类别兼容。 | Playing for Data: 从电脑游戏中获取真实数据 | BitBucket | |
ProcSy | 一个用于语义分割的合成数据集,以真实城市环境为模型,并具有一系列可变影响因素,如天气和光照。 | ProcSy:针对语义分割网络影响因素研究的程序化合成数据集生成 | 网站 |
室内模拟与导航
由于室内环境的复杂性,室内导航可能具有挑战性。这些数据集有助于开发能够进行室内模拟和导航的系统:
名称 | 年份 | 描述 | 论文 | 其他链接 |
---|---|---|---|---|
Habitat | 2023 | 一个具身AI模拟平台,用于研究家庭环境中的协作人机交互任务。 | HABITAT 3.0: 人类、化身与机器人的共同栖息地 | 网站 |
Minos | 2017 | 多模态室内模拟器 | MINOS:用于复杂环境导航的多模态室内模拟器 | GitHub |
House3D | 2017年(2021年已存档) | 一个丰富逼真的3D环境 | 利用逼真且丰富的3D环境构建通用代理 | GitHub |
人体动作识别与模拟
识别和模拟人类动作是一项复杂的任务,这些数据集有助于解决:
名称 | 年份 | 描述 | 论文 | 其他链接 |
---|---|---|---|---|
PHAV | 2017 | 程序化生成的人体动作识别视频的合成数据集。 | 视频的程序化生成以训练深度动作识别网络 | 网站 |
Surreal | 2017 | (更改描述 - 这是用于人体深度估计和人体部位分割)大规模数据集,包含从人体运动捕捉数据3D序列渲染的合成但逼真的人物图像。我们生成了超过600万帧图像,以及真实姿态、深度图和分割掩码。我们展示了在我们的合成数据集上训练的CNNs能够对真实RGB图像进行准确的人体深度估计和人体部位分割。 | 从合成人类中学习 | GitHub |
人脸识别
人脸识别技术在安全、用户识别等领域有广泛应用。以下是推动该领域创新的数据集:
名称 | 年份 | 描述 | 论文 | 其他链接 |
---|---|---|---|---|
FaceSynthetics | 2021 | Face Synthetics数据集是包含真实标签的多样化合成人脸图像集合。 | 虚假到底:仅使用合成数据进行野外人脸分析 | 网站 - GitHub |
FFHQ | 2018 | 由70,000张1024x1024分辨率的高质量PNG图像组成,包含年龄、种族和图像背景的显著变化。 | 一种基于风格的生成器架构,用于生成对抗网络 | GitHub |
从单幅图像进行三维形状建模
从单幅图像创建3D模型是一个具有挑战性但令人兴奋的领域。这些数据集处于3D形状建模研究的前沿:
名称 | 年份 | 描述 | 论文 |
---|---|---|---|
Pix3D | 2018 | 一个大规模的基准测试数据集,包含多样化的图像-形状对,具有像素级的2D-3D对齐。Pix3D在形状相关任务中具有广泛应用,包括重建、检索和视点估计。 | Pix3D:用于单图像3D形状建模的数据集和方法 |
多样化应用
以下数据集要么专为特定应用定制,要么涵盖多个应用:
数据集名称 | 发布年份 | 描述 | 论文 | 外部链接 | 应用 |
---|---|---|---|---|---|
CIFAKE | 2023 | CIFAKE是一个包含60,000张合成生成图像和60,000张真实图像(来自CIFAR-10)的数据集。 | CIFAKE:AI生成合成图像的图像分类和可解释性识别 | Kaggle | 真实-虚假图像分类 |
ABO | 2022 | ABO是一个大型数据集,专为材料预测和多视图检索实验而设计。该数据集包含7,953个3D对象的每个30个视点的Blender渲染,以及每个渲染的相机内参和外参。 | ABO:真实世界3D物体理解的数据集和基准 | 网站 | 材料预测;多视图检索;3D物体理解;3D形状重建; |
NTIRE 2021 HDR | 2021 | 该数据集包含大约1500个训练样本,60个验证样本和201个测试样本。数据集中的每个样本又由三张输入LDR图像(即短曝光、中曝光和长曝光)和一张与中心中曝光帧对齐的相关真实HDR图像组成。 | NTIRE 2021 高动态范围成像挑战:数据集、方法和结果 | Papers with Code | 图像超分辨率 |
YCB-Video | 2017 | 一个用于6D物体姿态估计的大型视频数据集。它提供了从92个视频(包含133,827帧)中观察到的YCB数据集中21个物体的精确6D姿态。 | [PoseCNN:用于杂乱场景中6D物体姿态估计的卷积神经网络](PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes) | 网站 | 6D姿态估计 |
Playing for benchmarks | 2017 | 超过25万帧高分辨率视频,均已标注真实数据。 | Playing for benchmarks | 网站 | 语义实例分割;目标检测与跟踪;目标级三维场景布局; |
4D光场数据集 | 2016 | 24个合成、密集采样的4D光场,具有高精度视差真实值。 | 用于4D光场深度估计的数据集和评估方法 | GitHub | 4D光场深度估计 |
ICL-NUIM 数据集 | 2014 | 包含噪声模型的RGB-D数据,2个场景。专为室内环境设计。 | 一个用于RGB-D视觉里程计、3D重建和SLAM的基准。 | 网站 | RGB-D、视觉里程计和SLAM算法。 |
3D对象数据集
基本的高级计算机视觉问题,例如目标检测或分割,完全受益于合成数据提供的完美标注,并且为使合成数据适用于这些问题付出了大量努力。由于创建合成数据需要开发3D模型,数据集通常还包含与3D相关的标注,例如深度图、形状的标记3D部分、体积3D数据等等。
数据集 | 年份 | 描述 | 论文 | 撰写时的引用 | 其他链接 |
---|---|---|---|---|---|
ADORESet | 2019 | 用于物体识别测试的混合数据集 | 一种混合图像数据集,旨在弥合机器人学中真实环境和模拟环境之间的差距。 | 13 | GitHub |
Falling Things | 2018 | 在虚拟环境中YCB对象的6.15万张图像 | 掉落的物体:用于3D物体检测和姿态估计的合成数据集。 | 171 | 网站 |
PartNet | 2018 | 26671个模型,573535个已标注部分实例 | PartNet:用于细粒度和分层零件级3D物体理解的大规模基准。 | 552 | 网站 |
ShapeNetCore | 2017 | 55个类别中的51K个手动验证模型 | 大规模3D形状重建和ShapeNet Core55分割。 | 71 | 网站 |
VANDAL | 2017 | 410万张深度图像,超过9K个对象,319个类别 | 合成数据的深度图像深度表示。 | 43 | 不适用 |
UnrealCV | 2017 | UE4的插件,用于生成合成数据 | UnrealCV:计算机视觉的虚拟世界。 | 95 | 不适用 |
SceneNet RGB-D | 2017 | 来自1.6万条3D轨迹的500万张RGB-D图像 | SceneNet RGB-D:500万张合成图像能否在室内分割方面超越通用的ImageNet预训练? | 309 | 网站 |
DepthSynth | 2017 | 用于深度传感器真实模拟的框架 | 从CAD模型生成实时逼真合成数据,用于2.5D识别。 | 84 | 不适用 |
3DScan | 2016 | 大量物体扫描数据集 | 大量的物体扫描数据集。 | 223 | 网站 |
结论
合成数据集的开发和利用彻底改变了计算机视觉领域。它们不仅解决了数据稀缺问题,而且确保了仅凭真实世界数据难以实现的高精度和可变性。随着技术的进步,我们可以期待更复杂、更逼真的数据集,这些数据集将继续突破计算机视觉的界限。