合成数据集

导言

欢迎来到计算机视觉中精彩的合成数据集世界！随着我们从经典的无监督方法过渡到先进的深度学习技术，对广泛而多样的数据集的需求也急剧增加。合成数据集已成为训练最先进模型的关键资源，提供了大量在现实世界中通常不切实际或不可能收集的数据。在本节中，我们将探讨一些最具影响力的合成数据集、它们的应用，以及它们如何塑造计算机视觉的未来。

底层计算机视觉问题

光流和运动分析

光流和运动分析对于理解图像动态至关重要。以下是一些为该领域的进步做出重大贡献的数据集

数据集名称	年份	描述	论文	附加链接
Middlebury	2021 (最新版本)	Middlebury 立体数据集包含高分辨率立体序列，具有复杂的几何形状和像素精确的真值视差数据。真值视差是通过一种采用结构光的技术获得的，该技术不需要校准光投影仪。	光流的数据库和评估方法 (在撰写本文时被引用 3192 次)	Papers with Code - 网站
Playing for Benchmarks	2017	超过 25 万个高分辨率视频帧，全部标注了用于高级任务以及低级任务（如光流估计和视觉里程计）的真值数据。	Playing for benchmarks	网站
MPI-Sintel	2012	用于光流的合成数据集。MPI-Sintel 的主要特点是它包含具有不同渲染设置、不同质量和复杂度的相同场景；这种方法可以更深入地了解不同光流算法在哪里失效。（论文引述）	用于光流评估的自然开源电影 (撰写本文时被引用 551 次)	网站

立体图像匹配

立体图像匹配涉及识别同一场景不同图像中的对应元素。以下数据集在该领域发挥了重要作用

名称	年份	描述	论文	附加链接
Flying Chairs	2015	22k 帧对，带有真值光流	使用卷积网络学习光流。
Flying Chairs 3D	2015	22k 立体帧	用于训练卷积网络进行视差、光流和场景流估计的大型数据集。
Driving	2015	4392 立体帧	用于训练卷积网络进行视差、光流和场景流估计的大型数据集。
Monkaa	2015	8591 立体帧	用于训练卷积网络进行视差、光流和场景流估计的大型数据集。
Middlebury 2014	2014	33 个高分辨率立体数据集	具有亚像素精度真值的高分辨率立体数据集
Tsukuba Stereo	2012	该数据集包括 1800 个立体对，附带真值视差图、遮挡图和不连续图。	迈向模拟驱动的立体视觉系统	项目

高级计算机视觉问题

用于自动驾驶的语义分割

语义分割对于自动驾驶车辆安全地解释和导航周围环境至关重要。这些数据集为此目的提供了丰富的带注释数据

名称	年份	描述	论文	附加链接
Virtual KITTI 2	2020	虚拟世界作为多目标跟踪分析的代理	Virtual KITTI 2	网站
ApolloScape	2019	与来自真实场景的现有公共数据集（例如 KITTI [2] 或 Cityscapes [3]）相比，ApolloScape 包含更大且更丰富的标注，包括每个站点的整体语义密集点云、立体、逐像素语义标注、车道线标注、实例分割、3D 汽车实例、来自多个站点、城市和白天各种驾驶视频中每帧的高精度位置。	用于自动驾驶的 ApolloScape 开放数据集及其应用	网站
Driving in the Matrix	2017	“Driving in the Matrix”背后的核心思想是使用来自模拟引擎的照片级逼真计算机生成图像来快速生成带注释的数据。	Driving in the Matrix：虚拟世界可以替代人类生成的真实世界任务注释吗？	GitHub
CARLA	2017	CARLA（CAR Learning to Act）是一个用于城市驾驶的开放模拟器，作为 Unreal Engine 4 上的开源层开发。从技术上讲，它的操作方式类似，作为 Unreal Engine 4 上的开源层，以 RGB 相机（具有可自定义的位置）、真值深度图、真值语义分割图（具有 12 个为驾驶设计的语义类，例如道路、车道线、交通标志、人行道等）、环境中动态对象的边界框以及代理自身（车辆位置和方向）的测量值的形式提供传感器。	CARLA：开放城市驾驶模拟器	网站
Synthia	2016	用于城市场景语义分割的大量合成图像集合。SYNTHIA 由从虚拟城市渲染的照片级逼真帧集合组成，并带有 13 个类别的精确像素级语义注释：杂项、天空、建筑物、道路、人行道、围栏、植被、电线杆、汽车、标志、行人、骑自行车的人、车道线。	SYNTHIA 数据集：用于城市场景语义分割的大量合成图像集合	网站
GTA5	2016	GTA5 数据集包含 24966 张带有像素级语义注释的合成图像。这些图像是使用开放世界视频游戏侠盗猎车手 5 渲染的，并且全部来自美式虚拟城市街道上的汽车视角。19 个语义类与 Cityscapes 数据集的语义类兼容。	为数据而玩：来自计算机游戏的真值	BitBucket
ProcSy		用于语义分割的合成数据集，以真实世界的城市环境为模型，并具有一系列可变的影响因素，例如天气和照明。	ProcSy：程序化合成数据集生成，用于语义分割网络的影响因素研究	网站

室内模拟和导航

由于室内环境的复杂性，室内导航可能具有挑战性。这些数据集有助于开发能够进行室内模拟和导航的系统

名称	年份	描述	论文	附加链接
Habitat	2023	一个具身 AI 模拟平台，用于研究家庭环境中人类与机器人协作交互任务。	HABITAT 3.0：人类、虚拟化身和机器人的共生环境	网站
Minos	2017	多模态室内模拟器	MINOS：用于复杂环境中导航的多模态室内模拟器	GitHub
House3D	2017 (2021 年存档)	丰富而真实的 3D 环境	使用真实且丰富的 3D 环境构建通用代理	GitHub

人类动作识别与模拟

识别和模拟人类动作是一项复杂的任务，这些数据集有助于解决这个问题

名称	年份	描述	论文	附加链接
PHAV	2017	程序化生成的用于人类动作识别视频的合成数据集。	用于训练深度动作识别网络的视频的程序化生成	网站
Surreal	2017	(更改描述 - 这用于人类深度估计和人体部位分割) 大规模数据集，包含从人类运动捕捉数据的 3D 序列渲染的合成生成但逼真的人员图像。我们生成超过 600 万帧，以及真值姿势、深度图和分割掩码。我们表明，在我们合成数据集上训练的 CNN 允许在真实 RGB 图像中进行准确的人类深度估计和人体部位分割。	从合成人类学习	GitHub - 网站

人脸识别

人脸识别技术具有广泛的应用，从安全到用户身份识别。以下是推动该领域创新的数据集

名称	年份	描述	论文	附加链接
FaceSynthetics	2021	Face Synthetics 数据集是具有真值标签的各种合成人脸图像的集合。	弄虚作假直到成功：仅使用合成数据在野外进行人脸分析	网站 - GitHub
FFHQ	2018	包含 70,000 张 1024×1024 分辨率的高质量 PNG 图像，并且在年龄、种族和图像背景方面包含相当大的变化。	用于生成对抗网络的基于样式的生成器架构	GitHub

从单张图像进行 3D 形状建模

从单张图像创建 3D 模型是一个具有挑战性但令人兴奋的领域。这些数据集处于 3D 形状建模研究的最前沿

名称	年份	描述	论文
Pix3D	2018	一个大规模基准，包含各种图像-形状对，具有像素级 2D-3D 对齐。Pix3D 在形状相关任务（包括重建、检索和视点估计）中具有广泛的应用。	Pix3D：用于单图像 3D 形状建模的数据集和方法

多样化应用

以下数据集是为特定应用量身定制的，或者涵盖多个应用

数据集名称	发布年份	描述	论文	外部链接	应用
CIFAKE	2023	CIFAKE 是一个数据集，包含 60,000 张合成生成的图像和 60,000 张真实图像（从 CIFAR-10 收集）。	CIFAKE：AI 生成的合成图像的图像分类和可解释识别	Kaggle	真假图像分类
ABO	2022	ABO 是一个大规模数据集，专为材料预测和多视图检索实验而设计。该数据集包含 7,953 个 3D 对象中每个对象的 30 个视点的 Blender 渲染，以及每个渲染的相机内在参数和外在参数。	ABO：用于真实世界 3D 对象理解的数据集和基准	网站	材料预测；多视图检索；3D 对象理解；3D 形状重建；
NTIRE 2021 HDR	2021	此数据集由大约 1500 个训练示例、60 个验证示例和 201 个测试示例组成。数据集中的每个示例又由三个输入 LDR 图像（即短、中和长曝光）以及与中心中帧对齐的相关真值 HDR 图像组成。	NTIRE 2021 高动态范围成像挑战赛：数据集、方法和结果	Papers with Code	图像超分辨率
YCB-Video	2017	用于 6D 对象姿态估计的大规模视频数据集。提供在 92 个视频中观察到的来自 YCB 数据集的 21 个对象的精确 6D 姿态，包含 133,827 帧。	[PoseCNN：用于杂乱场景中 6D 对象姿态估计的卷积神经网络](PoseCNN：用于杂乱场景中 6D 对象姿态估计的卷积神经网络)	网站	6D 姿态估计
Playing for benchmarks	2017	超过 25 万个高分辨率视频帧，全部标注了真值数据。	Playing for benchmarks	网站	语义实例分割；对象检测和跟踪；对象级 3D 场景布局；
4D 光场数据集	2016	24 个合成的、密集采样的 4D 光场，具有高度精确的视差真值。	4D 光场深度估计的数据集和评估方法	GitHub - 网站	4D 光场深度估计
ICL-NUIM 数据集	2014	RGB-D，带有噪声模型，2 个场景。这用于室内环境。	rgb-d 视觉里程计、3d 重建和 slam 的基准。	网站	RGB-D、视觉里程计和 SLAM 算法。

3D 对象数据集

基本的高级计算机视觉问题，例如对象检测或分割，完全享受合成数据提供的完美标注的好处，并且有大量努力致力于使合成数据适用于这些问题。由于制作合成数据需要开发 3D 模型，因此数据集通常还具有 3D 相关标注，例如深度图、形状的标注 3D 部件、体积 3D 数据等等。

数据集	年份	描述	论文	撰写本文时的引用次数	附加链接
ADORESet	2019	用于对象识别测试的混合数据集	一种混合图像数据集，旨在弥合机器人技术中真实环境和模拟环境之间的差距。	13	GitHub
Falling Things	2018	虚拟环境中的 61.5K 张 YCB 对象图像	掉落的物体：用于 3d 对象检测和姿态估计的合成数据集。	171	网站
PartNet	2018	26671 个模型，573535 个带注释的零件实例	Partnet：用于细粒度和分层零件级 3d 对象理解的大规模基准。	552	网站
ShapeNetCore	2017	来自 55 个类别的 51K 个手动验证的模型	来自 shapenet core55 的大规模 3d 形状重建和分割。	71	网站
VANDAL	2017	410 万张深度图像，319 个类别中超过 9K 个对象	来自合成数据的深度图像的深度表示。	43	不适用
UnrealCV	2017	用于 UE4 的插件，用于生成合成数据	Unrealcv：用于计算机视觉的虚拟世界。	95	不适用
SceneNet RGB-D	2017	来自 16K 3D 轨迹的 500 万张 RGB-D 图像	Scenenet rgb-d：500 万张合成图像能否在室内分割方面击败通用 ImageNet 预训练？	309	网站
DepthSynth	2017	用于深度传感器逼真模拟的框架	来自 cad 模型的实时逼真合成数据生成，用于 2.5d 识别。	84	不适用
3DScan	2016	一个大型对象扫描数据集	一个大型对象扫描数据集。	223	网站

结论

合成数据集的开发和利用一直是计算机视觉领域的游戏规则改变者。它们不仅为数据稀缺问题提供了解决方案，而且还确保了真实世界数据难以达到的准确性和可变性水平。随着技术的进步，我们可以预见更复杂和逼真的数据集，这将继续突破计算机视觉领域可能实现的界限。

参考文献

< > 更新 on GitHub

社区计算机视觉课程