使用 BHI 过滤单图像超分辨率数据集

社区文章发布于 2024 年 11 月 7 日

引言

方法

DF2K 主测试
系统设置

数据集

训练

验证

指标

浮点格式

块效应

HyperIQA 过滤

IC9600 过滤

BHI 过滤

ImageNet 附加测试
HyperIQA 过滤

IC9600 过滤

BHI 过滤

LSDIR 快速测试
BHI 过滤

未来工作

简介

我为他人创建了我的 vitepress 网站，并使用和视觉比较了 600 多种不同的超分辨率模型。自那时以来，我自行训练并发布了 100 多个单图像超分辨率（SISR）模型，这些模型基于 15 种不同的架构，如 MoSR、RealPLKSR、DRCT、SPAN、DAT 或 ATD 及其各自的架构选项。

这些模型可在我的 GitHub 模型仓库、Huggingface 个人资料或 openmodeldb 上找到，并且可以在这个 ZeroGPU Huggingface Space 上在线试用。

出于 SISR 训练的目的，我偶尔会策划数据集，最早是在 2023 年 8 月，我为我的 FaceUp 模型系列制作了一个名为 FaceUp 的 FFHQ 策划版本，其中我使用了 HyperIQA 图像质量度量进行过滤。

在这篇文章中，我将评估我过去用于 SISR 模型训练的两种数据集过滤技术的影响，即 HyperIQA 和 IC9600 用于复杂度过滤。

方法

我的目标是为数据集找到一个简单的数据集策划工作流程，该工作流程通常可以提高质量（模型训练验证指标分数）或效率（通过减少图像数量同时保持相似的验证指标分数来节省存储空间）。

BHI（块效应、HyperIQA、IC9600）过滤方法是我提出的，我将通过运行测试并查看其结果来评估其有效性或无效性。

我的方法如下：

在标准数据集上训练一个 SISR 模型，同时生成验证指标分数，这将作为基线模型。
使用 HyperIQA 和 IC9600 对该数据集进行评分。
使用这两种方法以不同的阈值过滤数据集。
在每个过滤后的数据集上训练 SISR 模型，同时生成验证指标分数。
根据与基线模型相比的指标分数，评估数量减少的有效性。
从测试中为 HyperIQA 和 IC9600 各自推导出一个好的阈值，然后将这些过滤技术结合起来，根据这些阈值创建一个经过策划的数据集版本。
使用相同的选项在该策划数据集上训练一个 SISR 模型，同时生成验证指标分数。
根据数量减少及其最终评分指标与基线模型进行比较来评估有效性。

DF2K 主测试

系统设置

所有测试都在我的家用电脑上完成，以下是我的配置：

Ubuntu 20.04.6 LTS 64 位
RTX 3060 (12 GB 显存)
16 GiB 内存
AMD® Ryzen 5 3600 6 核处理器 × 12

数据集

我选择的数据集是 DF2K 数据集，它是 DIV2K 和 Flicker2K 数据集的组合，常被用作新 SISR 架构论文的标准训练数据集。

此外，在查看PLKSR 论文时，他们从头开始训练了所有 plksr_tiny 模型（因此没有使用预训练策略），其中在 DF2K 上训练的模型比仅在 DIV2K 上训练的模型获得了更好的指标分数。

为了提高训练期间的 I/O 速度，采用了平铺策略，正如 real-esrgan 仓库的训练部分所建议的。将 DF2K 平铺到 512x512 像素后，训练数据集现在包含 21387 个平铺图像。

这个平铺版本的 DF2K 数据集将用于训练基础模型并进行过滤，可以在这里找到。由于所有过滤都将在我上传到 Huggingface 的这个平铺数据集上完成，因此本帖中用于训练的所有过滤子集及其各自的指标分数都是可重现的。

编辑：BHI 过滤版本的 DF2K 可以在这里找到。

训练

Plksr_tiny 是一种训练速度较快、在论文中得分高于 SAFMN、DITN 或 SPAN 的架构选项，将用于以 4 倍尺度运行这些测试。

用于配对训练的低分辨率 (LR) 对应物将仅通过双三次下采样创建。

为了重现性，我提供了下载基线模型高分辨率（HR）和低分辨率（LR）数据集的链接。
DF2K 分块 HR 的链接
 DF2K 分块 LR 的链接

至于训练框架，对于所有这些测试，都使用了 neosr，其提交哈希为 dc4e3742132bae2c2aa8e8d16de3a9fcec6b1a74，并使用了确定性训练。

通常使用 fp16 格式，批次大小为 16，补丁大小为 32 进行模型训练，并使用 lr 1e-4，betas [0.9,0.99] 的 adamw 作为优化器，使用 60k 和 120k 里程碑的 multisteplr 作为调度器，仅使用 L1Loss，并启用 EMA。

训练配置通常将可用于重现。虽然默认配置中有很多选项，但为了视觉清晰度，这些选项已通过删除 neosr 中提供的标准配置中所有注释掉的选项而缩短。

验证

DIV2K 数据集是 DF2K 的一个子集，提供了包含 100 张图像的官方验证集，以及其高分辨率和相应的低分辨率对应物。我们将在训练期间使用此验证集进行验证。
训练期间的验证将每 10,000 次迭代发生一次，这将提供足够的数据，同时不会因运行推理而过多地减慢训练速度，验证将使用 PSNR、SSIM 和 DISTS 指标。

官方 DIV2K 验证集可以在这里下载

指标

每次测试我都会提供 Tensorboard 图表，以可视化模型训练的 PSNR、SSIM 和 DISTS 验证指标。

PSNR 和 SSIM 经常在论文中用作验证指标。由于 DISTS 已添加到 neosr，我也获得了此指标的 Tensorboard 图表。

目前有 25 个全参考（和 45 个非参考）指标选项可用于 pyiqa，我在尝试从模型训练的检查点中找到发布候选时，全部运行了一次。在本测试结束时，我将在策划模型上（除了 PSNR、SSIM 和 DISTS）额外使用 topiq_fr 和 AHIQ 指标，这些指标在我的经验中表现良好。

浮点格式

测试使用 fp32、fp16 或 bf16 进行训练的不同选项，基线模型（在完整的平铺 DF2K 数据集上）已在所有这些格式上训练了 200,000 次迭代。

从 Tensorboard 的以下图表中可以看出，尽管验证指标分数差异很小，但 fp16 提供了最大的训练时间改进，因此除非另有说明，否则今后将用于测试。

基线模型及其训练配置可以在这里找到

BHI 方法使用块效应、HyperIQA 和 IC9600 过滤进行 SISR 训练数据集策划，我将在以下部分中按此顺序介绍这些过滤技术。

块效应

我将块效应过滤添加到此策划工作流程中，阈值为 30，因为他们在《重新思考图像超分辨率的训练数据视角》论文中已经测试并表明，在训练集中添加 75% 或更低的 jpg 压缩对 sisr 训练过程可能非常有害，如其图 5 所示，而且通常情况下，较低的块效应会导致指标值提高（Manga109 测试集除外），如其表 4 所示。由于将块效应阈值从 30 降低到 10 并未导致验证指标分数增加，因此我们的 BHI 过滤方法使用块效应阈值 < 30。这些视觉效果为了方便起见插入在此处，并取自他们的论文。

为了可视化，最低和最高块效应得分的瓦片

HyperIQA 过滤

图像质量评估的目的是通常通过为其分配分数来评估图像的视觉感知质量。我在这里的假设是，IQA 可以用于通过过滤评分瓦片来提高整个训练数据集的质量，从而去除评分不佳的瓦片（例如模糊和嘈杂的瓦片）。

我们将测试这个假设。

对于图像质量评估，我在 DF2K 瓦片数据集上使用 HyperIQA 评分。

我使用 HyperIQA 对分块的 DF2K 数据集进行了评分，分数可以在这里找到。

为了可视化，我在此插入最低和最高 HyperIQA 评分的瓦片。

根据该评分，我创建了以下过滤后的训练子集，以及剩余瓦片数量和占完整分块数据集的百分比：

HyperIQA 分数 >= 0.1 -> 未过滤，完整集 = 基础模型 (100%)
HyperIQA 分数 >= 0.2 -> 21,347 块 (99.8%)
HyperIQA 分数 >= 0.3 -> 20,689 块 (96.7%)
HyperIQA 分数 >= 0.4 -> 18,477 块 (86.4%)
HyperIQA 分数 >= 0.5 -> 14,572 块 (68.1%)
HyperIQA 分数 >= 0.6 -> 8,471 块 (39.6%)
HyperIQA 分数 >= 0.7 -> 1,780 块 (8.3%)
HyperIQA 分数 >= 0.8 -> 44 块 (0.2%)

然后我对每个子集训练了 fp16 模型，每个模型迭代 100k 次，除了 0.8 子集，因为它剩下的瓦片太少，无法进行有意义的训练。结果显示在以下图形中，并以 fp16 基线模型作为参考点。

Tensorboard：DF2K 上 HyperIQA 过滤的 PSNR 验证分数

Tensorboard：DF2K 上 HyperIQA 过滤的 SSIM 验证分数

Tensorboard：DF2K 上 HyperIQA 过滤的 DISTS 验证分数

在所有这些指标中，在 HyperIQA 分数 >= 0.2 过滤后的训练子集上进行训练，给了我们更好的指标。我们将把这个作为 BHI 过滤数据集的阈值。

令我惊讶的是，我曾假设数据集的整体 IQA 分数越高（即以更高的 IQA 分数过滤），指标就会越好。从 PSNR 和 SSIM 来看，情况似乎并非如此。相反，只移除最差的瓦片（分数低于 0.2）似乎对训练验证指标产生了积极影响。

我还要在这里指出，PSNR 和 SSIM 得分高于基线模型的模型仍包含超过 90% 的分块数据集瓦片，而使用更高阈值时瓦片数量显著下降，因此瓦片的数量可能在这些验证指标中发挥作用。

IC9600 过滤

另一个假设是，增加数据集的总体复杂度（增加每个训练瓦片上的信息量）也将有利于 SISR 训练，或者更确切地说，有利于 SISR 训练数据集的策划。

对于图像复杂度自动评估，我使用 IC9600 对 DF2K 瓦片数据集进行评分，其分数可在此处找到。

为了可视化，最低和最高的 IC9600 评分瓦片

根据评分，我创建了以下过滤后的子集：

IC9600 分数 >= 0.1 -> 20,807 瓦片 (97.3%)
IC9600 分数 >= 0.2 -> 19,552 瓦片 (91.4%)
IC9600 分数 >= 0.3 -> 17,083 瓦片 (79.9%)
IC9600 分数 >= 0.4 -> 12,784 瓦片 (59.8%)
IC9600 分数 >= 0.5 -> 6,765 瓦片 (31.6%)
IC9600 分数 >= 0.6 -> 1,918 瓦片 (9.0%)
IC9600 分数 >= 0.7 -> 318 瓦片 (1.5%)
IC9600 分数 >= 0.8 -> 44 瓦片 (0.2%)

Tensorboard：DF2K 上 IC9600 过滤的 DISTS 验证分数

IC9600 测试的训练配置和模型文件

从这些结果来看，IC9600 过滤似乎对训练有积极影响。模型不仅收敛更快，或者在训练的早期迭代中达到更高的指标分数，而且通常能够达到更高的验证指标。在 PSNR 和 SSIM 中，阈值 0.5 达到了最高的指标值。总体而言，这暗示更高的 IC9600 阈值通常是有益的。高于 0.5 的阈值得分较差可能是因为训练集中瓦片数量的大幅减少。

BHI 过滤

现在，我将之前的过滤方法结合到 BHI 过滤方法中，使用从先前测试中确定的阈值：

块效应 < 30，HyperIQA >= 0.2，IC9600 >= 0.5

我在现在经过 BHI 过滤的 DF2K 分块数据集上训练了一个 fp16 模型。瓦片的数量如下：

基线 DF2K 模型：21,387 块策划的 DF2K 模型：6,620 块 (31%)

以下是训练验证结果，合并在此处意味着组合过滤技术，即 BHI 过滤的 DF2K 分块训练集。

Tensorboard：DISTS 验证分数 DF2K 基线和 DF2K-BHI

从结果来看，BHI 过滤 DF2K 分块数据集不仅使训练数据集大小减少了 69%，同时在 DIV2K 验证集上实现了更好的 PSNR、SSIM 和 DISTS 验证指标分数。

尽管我认为 10 万次迭代对于 plksr_tiny 这种轻量级网络选项的测试通常就足够了，但在 PLKSR 论文中，他们从头开始训练 plksr_tiny 模型，迭代次数高达 45 万次。由于这是最终的 DF2K 分块测试，我也会将训练迭代次数增加到 50 万次，以便能够捕捉到长时间训练迭代可能发生的情况。

Tensorboard：DF2K 基线和 DF2K-BHI 的 PSNR 验证分数均达到 50 万次迭代

Tensorboard：DF2K 基线和 DF2K-BHI 的 SSIM 验证分数均达到 50 万次迭代

Tensorboard：DF2K 基线和 DF2K-BHI 的 DISTS 验证分数均达到 50 万次迭代

我们可以看到，指标分数有所提高，并且由于块效应过滤等过滤技术，随着迭代次数的增加，指标会持续略微改善。

为了确保这些结果不是 DIV2K 测试集特有的，我将在多个官方测试集上测试这些最终模型，并使用多个指标。具体来说，是 Urban100、BSD100、DIV2K 和 LSDIR 测试集，使用 PSNR、SSIM、DISTS、AHIQ 和 TOPIQ_FR FR（全参考）IQA 指标。

在 DF2K 分块和 BHI 过滤数据集上训练 50 万次迭代的 Plksr_tiny 模型，在不同测试集上的指标

即使使用更多的测试集和指标，先前的评估仍然成立，在 BHI 过滤的 DF2K 分块测试集上训练的模型通常能够获得更好的指标分数。BHI 过滤方法在 DF2K 分块数据集上与 plksr_tiny 架构选项结合使用是有效的，它在减少训练数据集大小的同时，在多个测试集上使用多个指标取得了更好的结果。

顺便说一句，作为一项额外的 10 万次迭代快速测试，我想看看如果改变一个参数，即补丁大小，并将其从 32 翻倍到 64，会发生什么。一般来说，增加训练补丁大小会导致更好的视觉模型输出。

Tensorboard：补丁大小为 64 时 DF2K 基线和 DF2K-BHI 的 PSNR 验证分数

Tensorboard：补丁大小为 64 时 DF2K 基线和 DF2K-BHI 的 SSIM 验证分数

Tensorboard：补丁大小为 64 时 DF2K 基线和 DF2K-BHI 的 DISTS 验证分数

我们获得了与之前的 32x32 补丁 10 万次迭代测试类似的结果，指标略有提高。