社区计算机视觉课程文档

合成数据集

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验的访问权限

开始使用

合成数据集

介绍

欢迎来到计算机视觉合成数据集的迷人世界!随着我们从传统的无监督方法转向先进的深度学习技术,对庞大而多样化数据集的需求激增。合成数据集已成为训练最先进模型的关键资源,提供了在现实世界中收集起来往往不切实际或不可能的大量数据。在本节中,我们将探讨一些最具影响力的合成数据集、它们的应用以及它们如何塑造计算机视觉的未来。

低级计算机视觉问题

光流和运动分析

光流和运动分析对于理解图像动态至关重要。以下是一些在该领域取得重大进展的数据集

数据集名称 年份 描述 论文 其他链接
Middlebury 2021 年(最新版本) **Middlebury** 立体数据集包含具有复杂几何形状和像素级精确地面真实视差数据的 高分辨率立体序列。地面真实视差使用采用结构化照明并不要求校准光投影仪的技术获取。 光流的数据库和评估方法(截至撰写本文时已被引用 3192 次) Papers with Code - 网站
玩游戏以建立基准 2017 超过 250,000 张高分辨率视频帧,所有帧都带有地面真实数据,用于高级任务,但也用于低级任务,如光流估计和视觉里程计。 玩游戏以建立基准 网站
MPI-Sintel 2012 一个用于光流的合成数据集。MPI-Sintel 的主要特征在于它包含具有不同渲染设置、不同质量和复杂度的相同场景;这种方法可以更深入地了解不同的光流算法在何处失效。(论文引用) 用于光流评估的自然开源电影(截至撰写本文时已被引用 551 次) 网站

立体图像匹配

立体图像匹配涉及识别同一场景不同图像中对应的元素。以下数据集在这个领域发挥了重要作用

名称 年份 描述 论文 其他链接
飞椅 2015 22,000 对帧,带有地面真实流 使用卷积网络学习光流。
飞椅 3D 2015 22,000 对立体帧 一个大型数据集,用于训练卷积网络进行视差、光流和场景流估计。
驾驶 2015 4392 对立体帧 一个大型数据集,用于训练卷积网络进行视差、光流和场景流估计。
Monkaa 2015 8591 对立体帧 一个大型数据集,用于训练卷积网络进行视差、光流和场景流估计。
Middlebury 2014 2014 33 个高分辨率立体数据集 具有亚像素级精确地面真实数据的高分辨率立体数据集
Tsukuba 立体 2012 该数据集包括 1800 对立体图像,以及地面真实视差图、遮挡图和不连续性图。 走向以仿真驱动的立体视觉系统 项目

高级计算机视觉问题

语义分割用于自动驾驶

语义分割对于自动驾驶汽车安全地解释和导航周围环境至关重要。这些数据集为该目的提供了丰富且带注释的数据

名称 年份 描述 论文 其他链接
虚拟 KITTI 2 2020 虚拟世界作为多目标跟踪分析的代理 虚拟 KITTI 2 网站
ApolloScape 2019 与现有来自真实场景的公共数据集(例如 KITTI [2] 或 Cityscapes [3])相比,ApolloScape 包含更多更大的更丰富的标注,包括每个地点的完整语义密集点云、立体图像、逐像素语义标注、车道线标注、实例分割、3D 汽车实例,以及来自多个地点、城市和白天时间的各种驾驶视频中每一帧的高精度位置。 ApolloScape 开放数据集及其在自动驾驶中的应用 网站
驾驶矩阵 2017 “驾驶矩阵”背后的核心思想是使用来自模拟引擎的逼真计算机生成的图像来快速生成带标注的数据。 驾驶矩阵:虚拟世界可以替代人类生成的标注以完成现实世界任务吗? GitHub GitHub stars
CARLA 2017 CARLA(CAR 学习行动)是一个用于城市驾驶的开放式模拟器,开发为 Unreal Engine 4 上的开源层。从技术上讲,它的运作方式类似于 Unreal Engine 4 上的开源层,它提供传感器形式的 RGB 相机(具有可定制的位置)、地面真值深度图、具有 12 个为驾驶设计的语义类别(道路、车道线标记、交通标志、人行道等)的地面真值语义分割图、环境中动态物体的边界框,以及代理本身(车辆位置和方向)的测量结果。 CARLA:一个开放的城市驾驶模拟器 网站
Synthia 2016 一个大型合成图像集合,用于城市场景的语义分割。SYNTHIA 包含从虚拟城市渲染的逼真帧集合,并附带针对 13 个类别的精确像素级语义标注:杂项、天空、建筑物、道路、人行道、栅栏、植被、杆、汽车、标志、行人、骑自行车的人、车道线标记。 SYNTHIA 数据集:一个大型合成图像集合,用于城市场景的语义分割 网站
GTA5 2016 GTA5 数据集包含 24966 个带有像素级语义标注的合成图像。这些图像使用开放世界视频游戏侠盗猎车手 5 渲染,并且都来自美国风格虚拟城市街道上的汽车视角。19 个语义类别与 Cityscapes 数据集的类别兼容。 为数据而玩:来自电脑游戏的真实数据 BitBucket
ProcSy 一个用于语义分割的合成数据集,模拟了现实世界的城市环境,并具有多种可变影响因素,例如天气和照明。 ProcSy:面向语义分割网络影响因素研究的程序化合成数据集生成 网站

室内模拟和导航

在复杂的环境中进行室内导航可能具有挑战性。这些数据集有助于开发能够进行室内模拟和导航的系统。

名称 年份 描述 论文 其他链接
Habitat 2023 一个具身人工智能模拟平台,用于研究家庭环境中协作的人机交互任务。 HABITAT 3.0:人类、化身和机器人的共生体 网站
Minos 2017 多模态室内模拟器 MINOS:用于复杂环境中导航的多模态室内模拟器 GitHub GitHub stars
House3D 2017 年(2021 年存档) 一个丰富且真实的 3D 环境 使用真实且丰富的 3D 环境构建可泛化代理 GitHub GitHub stars

人类行为识别和模拟

识别和模拟人类行为是一项复杂的任务,这些数据集有助于解决此问题。

名称 年份 描述 论文 其他链接
PHAV 2017 程序化生成的人类行为识别视频的合成数据集。 程序化生成视频以训练深度行为识别网络 网站
Surreal 2017 (更改描述 - 这是用于人类深度估计和人体部位分割的大规模数据集)一个大型数据集,包含从人类动作捕捉数据的三维序列渲染的人物的合成生成但逼真的图像。我们生成了超过 600 万帧以及地面真值姿态、深度图和分割掩码。我们表明,在我们的合成数据集上训练的 CNN 允许对真实 RGB 图像进行准确的人类深度估计和人体部位分割。 从合成人类学习 GitHub GitHub stars- 网站

人脸识别

人脸识别技术具有多种应用,从安全到用户识别。以下介绍驱动该领域创新的数据集。

名称 年份 描述 论文 其他链接
FaceSynthetics 2021 Face Synthetics 数据集是一个包含具有地面真值标签的不同合成人脸图像的集合。 假装直到你做到:仅使用合成数据进行野外的人脸分析 网站 - GitHub GitHub stars
FFHQ 2018 包含 70,000 张 1024×1024 分辨率的高质量 PNG 图像,在年龄、种族和图像背景方面存在很大差异。 用于生成对抗网络的基于样式的生成器架构 GitHub GitHub stars

从单个图像进行 3D 形状建模

从单个图像创建 3D 模型是一项具有挑战性但令人兴奋的领域。这些数据集处于 3D 形状建模研究的最前沿。

名称 年份 描述 论文
Pix3D 2018 一个大型的包含不同图像-形状对的基准,具有像素级 2D-3D 对齐。Pix3D 在形状相关任务中具有广泛的应用,包括重建、检索和视点估计。 Pix3D:用于单图像 3D 形状建模的数据集和方法

多种应用

以下数据集要么针对利基应用定制,要么涵盖多个应用。

数据集名称 发布年份 描述 论文 外部链接 应用
CIFAKE 2023 CIFAKE 是一个数据集,包含 60,000 张合成生成图像和 60,000 张真实图像(从 CIFAR-10 收集)。 CIFAKE:图像分类和人工智能生成的合成图像的可解释识别 Kaggle 真实图像-假图像分类
ABO 2022 ABO 是一个大型数据集,专为材料预测和多视图检索实验而设计。该数据集包含 7,953 个 3D 物体的每个物体的 30 个视点的 Blender 渲染,以及每个渲染的相机内参和外参。 ABO:用于现实世界 3D 物体理解的数据集和基准 网站 材料预测;多视图检索;3D 物体理解;3D 形状重建;
NTIRE 2021 HDR 2021 该数据集由大约 1500 个训练样本、60 个验证样本和 201 个测试样本组成。数据集中的每个样本又包含三个输入 LDR 图像,即短曝光、中等曝光和长曝光,以及与中央中等帧对齐的相关地面真值 HDR 图像。 NTIRE 2021 高动态范围成像挑战:数据集、方法和结果 Papers with Code 图像超分辨率
YCB-Video 2017 一个用于 6D 物体姿态估计的大规模视频数据集。提供了来自 YCB 数据集的 21 个物体的精确 6D 姿态,这些物体在 92 个视频(133,827 帧)中观察到。 [PoseCNN:一种用于杂乱场景中 6D 物体姿态估计的卷积神经网络](PoseCNN:一种用于杂乱场景中 6D 物体姿态估计的卷积神经网络) 网站 6D 姿态估计
玩游戏以建立基准 2017 超过 250,000 帧高分辨率视频帧,全部用地面真值数据进行标注。 玩游戏以建立基准 网站 语义实例分割;目标检测和跟踪;目标级 3D 场景布局;
4D 光场数据集 2016 24 个合成、密集采样的 4D 光场,具有高精度视差地面真值。 用于 4D 光场深度估计的数据集和评估方法 GitHub GitHub stars - 网站 4D 光场的深度估计
ICL-NUIM 数据集 2014 带有噪声模型的 RGB-D,2 个场景。适用于室内环境。 用于 rgb-d 视觉里程计、3d 重建和 slam 的基准。 网站 RGB-D、视觉里程计和 SLAM 算法。

3D 物体数据集

基本的高级计算机视觉问题,例如目标检测或分割,完全享受了合成数据提供的完美标签带来的好处,并且人们投入了大量的精力来使合成数据适用于这些问题。由于创建合成数据需要开发 3D 模型,因此数据集通常还包含 3D 相关的标签,例如深度图、标记的 3D 形状部件、体积 3D 数据等。

数据集 年份 描述 论文 撰写本文时的引用 其他链接
ADORESet 2019 用于目标识别测试的混合数据集 一个混合图像数据集,旨在弥合机器人技术中真实环境和模拟环境之间的差距。 13 GitHub GitHub stars
Falling Things 2018 61.5K 张 YCB 物体在虚拟环境中的图像 Falling things:一个用于 3d 物体检测和姿态估计的合成数据集。 171 网站
PartNet 2018 26671 个模型,573535 个带注释的部件实例 Partnet:一个用于细粒度和分层部件级 3d 物体理解的大规模基准。 552 网站
ShapeNetCore 2017 51K 个来自 55 个类别的经过人工验证的模型 来自 shapenet core55 的大规模 3d 形状重建和分割。 71 网站
VANDAL 2017 410 万深度图像,超过 9K 个物体,属于 319 个类别 来自合成数据的深度图像的深度表示。 43 N/A
UnrealCV 2017 UE4 的插件,用于生成合成数据 Unrealcv:用于计算机视觉的虚拟世界。 95 N/A
SceneNet RGB-D 2017 来自 16K 个 3D 轨迹的 500 万 RGB-D 图像 Scenenet rgb-d:500 万合成图像能否在室内分割方面超越通用 ImageNet 预训练? 309 网站
DepthSynth 2017 用于深度传感器逼真模拟的框架 从 CAD 模型生成用于 2.5d 识别的实时逼真合成数据。 84 N/A
3DScan 2016 一个大型物体扫描数据集 一个大型物体扫描数据集。 223 网站

结论

合成数据集的开发和利用改变了计算机视觉领域的游戏规则。它们不仅为数据稀缺问题提供了解决方案,而且还确保了用真实世界数据单独实现的精度和可变性水平。随着技术的进步,我们可以期待更复杂、更逼真的数据集,这些数据集将继续推动计算机视觉的边界。

参考文献

< > 更新 在 GitHub 上