评估扩散模型
像 Stable Diffusion 这样的生成模型的评估本质上是主观的。但作为从业者和研究人员,我们经常不得不在许多不同的可能性中做出谨慎的选择。因此,在使用不同的生成模型(如 GAN、Diffusion 等)时,我们如何选择一个而不是另一个?
此类模型的定性评估容易出错,并且可能错误地影响决策。然而,定量指标并不一定对应于图像质量。因此,通常,定性和定量评估的结合在选择一个模型而不是另一个模型时提供了更强的信号。
在本文档中,我们提供了对评估扩散模型的定性和定量方法的非详尽概述。对于定量方法,我们特别关注如何在 diffusers
旁边实现它们。
本文档中显示的方法也可用于评估不同的 噪声调度器,同时保持底层生成模型固定。
场景
我们涵盖了以下管道的扩散模型
- 文本引导图像生成(例如
StableDiffusionPipeline
)。 - 文本引导图像生成,另外以输入图像为条件(例如
StableDiffusionImg2ImgPipeline
和StableDiffusionInstructPix2PixPipeline
)。 - 类条件图像生成模型(例如
DiTPipeline
)。
定性评估
定性评估通常涉及对生成图像的人工评估。质量是在构成、图像-文本对齐和空间关系等方面衡量的。常见提示为主观指标提供了一定程度的统一性。DrawBench 和 PartiPrompts 是用于定性基准测试的提示数据集。DrawBench 和 PartiPrompts 分别由 Imagen 和 Parti 引入。
来自 Parti 官方网站
PartiPrompts (P2) 是一套丰富的 1600 多个英语提示,作为这项工作的一部分发布。P2 可用于衡量模型在各个类别中的能力并挑战各个方面。
PartiPrompts 具有以下列
- 提示
- 提示的类别(例如“抽象”、“世界知识”等)
- 反映难度的挑战(例如“基本”、“复杂”、“写作和符号”等)
这些基准允许对不同的图像生成模型进行并排人工评估。
为此,🧨 Diffusers 团队构建了 **Open Parti Prompts**,这是一个基于 Parti Prompts 的社区驱动的定性基准,用于比较最先进的开源扩散模型
- Open Parti Prompts 游戏:对于 10 个 parti 提示,显示 4 张生成的图像,用户选择最适合该提示的图像。
- Open Parti Prompts 排行榜:比较当前最佳开源扩散模型的排行榜。
要手动比较图像,让我们看看如何在几个 PartiPrompts 上使用 diffusers
。
下面我们展示了一些跨不同挑战采样的提示:基本、复杂、语言结构、想象力和写作与符号。在这里,我们使用 PartiPrompts 作为 数据集。
from datasets import load_dataset
# prompts = load_dataset("nateraw/parti-prompts", split="train")
# prompts = prompts.shuffle()
# sample_prompts = [prompts[i]["Prompt"] for i in range(5)]
# Fixing these sample prompts in the interest of reproducibility.
sample_prompts = [
"a corgi",
"a hot air balloon with a yin-yang symbol, with the moon visible in the daytime sky",
"a car with no windows",
"a cube made of porcupine",
'The saying "BE EXCELLENT TO EACH OTHER" written on a red brick wall with a graffiti image of a green alien wearing a tuxedo. A yellow fire hydrant is on a sidewalk in the foreground.',
]
现在我们可以使用这些提示使用 Stable Diffusion (v1-4 检查点) 生成一些图像
import torch
seed = 0
generator = torch.manual_seed(seed)
images = sd_pipeline(sample_prompts, num_images_per_prompt=1, generator=generator).images
我们还可以根据需要设置 num_images_per_prompt
以比较同一提示的不同图像。运行相同的管道但使用不同的检查点 (v1-5),会产生
一旦使用多个模型(正在评估中)从所有提示中生成了几张图像,这些结果就会呈现给人工评估人员进行评分。有关 DrawBench 和 PartiPrompts 基准测试的更多详细信息,请参阅其各自的论文。
在模型训练期间查看一些推理样本以衡量训练进度很有用。在我们的 训练脚本 中,我们通过额外支持记录到 TensorBoard 和 Weights & Biases 来支持此实用程序。
定量评估
在本节中,我们将逐步引导您了解如何使用以下方法评估三个不同的扩散管道
- CLIP 分数
- CLIP 方向相似度
- FID
文本引导图像生成
CLIP 分数 衡量图像-标题对的兼容性。较高的 CLIP 分数表示较高的兼容性 🔼。CLIP 分数是对定性概念“兼容性”的定量测量。图像-标题对的兼容性也可以被认为是图像和标题之间的语义相似性。CLIP 分数被发现与人类判断高度相关。
让我们首先加载一个 StableDiffusionPipeline
from diffusers import StableDiffusionPipeline
import torch
model_ckpt = "CompVis/stable-diffusion-v1-4"
sd_pipeline = StableDiffusionPipeline.from_pretrained(model_ckpt, torch_dtype=torch.float16).to("cuda")
使用多个提示生成一些图像
prompts = [
"a photo of an astronaut riding a horse on mars",
"A high tech solarpunk utopia in the Amazon rainforest",
"A pikachu fine dining with a view to the Eiffel Tower",
"A mecha robot in a favela in expressionist style",
"an insect robot preparing a delicious meal",
"A small cabin on top of a snowy mountain in the style of Disney, artstation",
]
images = sd_pipeline(prompts, num_images_per_prompt=1, output_type="np").images
print(images.shape)
# (6, 512, 512, 3)
然后,我们计算 CLIP 分数。
from torchmetrics.functional.multimodal import clip_score
from functools import partial
clip_score_fn = partial(clip_score, model_name_or_path="openai/clip-vit-base-patch16")
def calculate_clip_score(images, prompts):
images_int = (images * 255).astype("uint8")
clip_score = clip_score_fn(torch.from_numpy(images_int).permute(0, 3, 1, 2), prompts).detach()
return round(float(clip_score), 4)
sd_clip_score = calculate_clip_score(images, prompts)
print(f"CLIP score: {sd_clip_score}")
# CLIP score: 35.7038
在上面的示例中,我们每个提示生成了一张图像。如果我们每个提示生成多张图像,则必须取每个提示生成的图像的平均分数。
现在,如果我们想比较两个与StableDiffusionPipeline兼容的检查点,我们应该在调用管道时传递一个生成器。首先,我们使用v1-4 Stable Diffusion检查点生成图像,并使用固定的种子。
seed = 0
generator = torch.manual_seed(seed)
images = sd_pipeline(prompts, num_images_per_prompt=1, generator=generator, output_type="np").images
然后,我们加载v1-5检查点来生成图像。
model_ckpt_1_5 = "runwayml/stable-diffusion-v1-5"
sd_pipeline_1_5 = StableDiffusionPipeline.from_pretrained(model_ckpt_1_5, torch_dtype=weight_dtype).to(device)
images_1_5 = sd_pipeline_1_5(prompts, num_images_per_prompt=1, generator=generator, output_type="np").images
最后,我们比较它们的CLIP分数。
sd_clip_score_1_4 = calculate_clip_score(images, prompts)
print(f"CLIP Score with v-1-4: {sd_clip_score_1_4}")
# CLIP Score with v-1-4: 34.9102
sd_clip_score_1_5 = calculate_clip_score(images_1_5, prompts)
print(f"CLIP Score with v-1-5: {sd_clip_score_1_5}")
# CLIP Score with v-1-5: 36.2137
看起来v1-5检查点的性能优于其前身。但是,请注意,我们用于计算CLIP分数的提示数量非常少。为了进行更实际的评估,此数量应该更高,并且提示应该多样化。
根据构建方式,此分数存在一些局限性。训练数据集中的标题是从网络上抓取的,并从与互联网上图像关联的alt
和类似标签中提取。它们不一定代表人类用来描述图像的内容。因此,我们必须在这里“设计”一些提示。
图像条件文本到图像生成
在这种情况下,我们使用输入图像以及文本提示来为生成管道设置条件。以StableDiffusionInstructPix2PixPipeline为例。它将编辑指令作为输入提示,以及要编辑的输入图像。
以下是一个示例。
评估此类模型的一种策略是测量两张图像之间变化的一致性(在CLIP空间中)与两张图像标题之间变化的一致性(如CLIP引导的图像生成器域自适应中所示)。这被称为“CLIP方向相似度”。
- 标题1对应于要编辑的输入图像(图像1)。
- 标题2对应于编辑后的图像(图像2)。它应该反映编辑指令。
以下是图片概述。
我们准备了一个小型数据集来实现此指标。让我们首先加载数据集。
from datasets import load_dataset
dataset = load_dataset("sayakpaul/instructpix2pix-demo", split="train")
dataset.features
{'input': Value(dtype='string', id=None),
'edit': Value(dtype='string', id=None),
'output': Value(dtype='string', id=None),
'image': Image(decode=True, id=None)}
这里我们有:
input
是与image
对应的标题。edit
表示编辑指令。output
表示反映edit
指令的修改后的标题。
让我们看一个示例。
idx = 0
print(f"Original caption: {dataset[idx]['input']}")
print(f"Edit instruction: {dataset[idx]['edit']}")
print(f"Modified caption: {dataset[idx]['output']}")
Original caption: 2. FAROE ISLANDS: An archipelago of 18 mountainous isles in the North Atlantic Ocean between Norway and Iceland, the Faroe Islands has 'everything you could hope for', according to Big 7 Travel. It boasts 'crystal clear waterfalls, rocky cliffs that seem to jut out of nowhere and velvety green hills'
Edit instruction: make the isles all white marble
Modified caption: 2. WHITE MARBLE ISLANDS: An archipelago of 18 mountainous white marble isles in the North Atlantic Ocean between Norway and Iceland, the White Marble Islands has 'everything you could hope for', according to Big 7 Travel. It boasts 'crystal clear waterfalls, rocky cliffs that seem to jut out of nowhere and velvety green hills'
这是图像。
dataset[idx]["image"]
我们将首先使用编辑指令编辑数据集中的图像并计算方向相似度。
让我们首先加载StableDiffusionInstructPix2PixPipeline
from diffusers import StableDiffusionInstructPix2PixPipeline
instruct_pix2pix_pipeline = StableDiffusionInstructPix2PixPipeline.from_pretrained(
"timbrooks/instruct-pix2pix", torch_dtype=torch.float16
).to(device)
现在,我们执行编辑。
import numpy as np
def edit_image(input_image, instruction):
image = instruct_pix2pix_pipeline(
instruction,
image=input_image,
output_type="np",
generator=generator,
).images[0]
return image
input_images = []
original_captions = []
modified_captions = []
edited_images = []
for idx in range(len(dataset)):
input_image = dataset[idx]["image"]
edit_instruction = dataset[idx]["edit"]
edited_image = edit_image(input_image, edit_instruction)
input_images.append(np.array(input_image))
original_captions.append(dataset[idx]["input"])
modified_captions.append(dataset[idx]["output"])
edited_images.append(edited_image)
为了测量方向相似度,我们首先加载CLIP的图像和文本编码器。
from transformers import (
CLIPTokenizer,
CLIPTextModelWithProjection,
CLIPVisionModelWithProjection,
CLIPImageProcessor,
)
clip_id = "openai/clip-vit-large-patch14"
tokenizer = CLIPTokenizer.from_pretrained(clip_id)
text_encoder = CLIPTextModelWithProjection.from_pretrained(clip_id).to(device)
image_processor = CLIPImageProcessor.from_pretrained(clip_id)
image_encoder = CLIPVisionModelWithProjection.from_pretrained(clip_id).to(device)
请注意,我们正在使用特定的CLIP检查点,即openai/clip-vit-large-patch14
。这是因为Stable Diffusion的预训练是使用此CLIP变体进行的。有关更多详细信息,请参阅文档。
接下来,我们准备一个PyTorch nn.Module
来计算方向相似度。
import torch.nn as nn
import torch.nn.functional as F
class DirectionalSimilarity(nn.Module):
def __init__(self, tokenizer, text_encoder, image_processor, image_encoder):
super().__init__()
self.tokenizer = tokenizer
self.text_encoder = text_encoder
self.image_processor = image_processor
self.image_encoder = image_encoder
def preprocess_image(self, image):
image = self.image_processor(image, return_tensors="pt")["pixel_values"]
return {"pixel_values": image.to(device)}
def tokenize_text(self, text):
inputs = self.tokenizer(
text,
max_length=self.tokenizer.model_max_length,
padding="max_length",
truncation=True,
return_tensors="pt",
)
return {"input_ids": inputs.input_ids.to(device)}
def encode_image(self, image):
preprocessed_image = self.preprocess_image(image)
image_features = self.image_encoder(**preprocessed_image).image_embeds
image_features = image_features / image_features.norm(dim=1, keepdim=True)
return image_features
def encode_text(self, text):
tokenized_text = self.tokenize_text(text)
text_features = self.text_encoder(**tokenized_text).text_embeds
text_features = text_features / text_features.norm(dim=1, keepdim=True)
return text_features
def compute_directional_similarity(self, img_feat_one, img_feat_two, text_feat_one, text_feat_two):
sim_direction = F.cosine_similarity(img_feat_two - img_feat_one, text_feat_two - text_feat_one)
return sim_direction
def forward(self, image_one, image_two, caption_one, caption_two):
img_feat_one = self.encode_image(image_one)
img_feat_two = self.encode_image(image_two)
text_feat_one = self.encode_text(caption_one)
text_feat_two = self.encode_text(caption_two)
directional_similarity = self.compute_directional_similarity(
img_feat_one, img_feat_two, text_feat_one, text_feat_two
)
return directional_similarity
现在让我们使用DirectionalSimilarity
。
dir_similarity = DirectionalSimilarity(tokenizer, text_encoder, image_processor, image_encoder)
scores = []
for i in range(len(input_images)):
original_image = input_images[i]
original_caption = original_captions[i]
edited_image = edited_images[i]
modified_caption = modified_captions[i]
similarity_score = dir_similarity(original_image, edited_image, original_caption, modified_caption)
scores.append(float(similarity_score.detach().cpu()))
print(f"CLIP directional similarity: {np.mean(scores)}")
# CLIP directional similarity: 0.0797976553440094
与CLIP分数一样,CLIP方向相似度越高越好。
需要注意的是,StableDiffusionInstructPix2PixPipeline
公开了两个参数,即image_guidance_scale
和guidance_scale
,它们允许您控制最终编辑图像的质量。我们鼓励您尝试这两个参数,并查看它们对方向相似度的影响。
我们可以扩展此指标的想法来衡量原始图像和编辑版本之间的相似程度。为此,我们只需执行F.cosine_similarity(img_feat_two, img_feat_one)
即可。对于此类编辑,我们仍然希望尽可能保留图像的主要语义,即高相似度分数。
我们可以将这些指标用于类似的管道,例如StableDiffusionPix2PixZeroPipeline
。
CLIP分数和CLIP方向相似度都依赖于CLIP模型,这可能使评估存在偏差。
当正在评估的模型在大型图像字幕数据集(例如LAION-5B数据集)上进行预训练时,扩展像IS、FID(稍后讨论)或KID这样的指标可能很困难。这是因为这些指标的基础是用于提取中间图像特征的InceptionNet(在ImageNet-1k数据集上进行预训练)。Stable Diffusion的预训练数据集可能与InceptionNet的预训练数据集重叠有限,因此它不是此处用于特征提取的良好候选者。
使用上述指标有助于评估经过类别条件训练的模型。例如,DiT。它是在ImageNet-1k类别上进行条件预训练的。
类别条件图像生成
类别条件生成模型通常在类别标记的数据集(如ImageNet-1k)上进行预训练。评估这些模型的常用指标包括Fréchet Inception Distance (FID)、Kernel Inception Distance (KID)和Inception Score (IS)。在本文件中,我们重点关注FID (Heusel 等人)。我们展示了如何使用DiTPipeline
计算它,该管道在后台使用DiT模型。
FID旨在衡量两个图像数据集的相似程度。根据此资源:
Fréchet Inception Distance是衡量两个图像数据集相似程度的指标。它已被证明与人类对视觉质量的判断密切相关,并且最常用于评估生成对抗网络样本的质量。FID通过计算拟合到Inception网络特征表示的两个高斯之间的Fréchet距离来计算。
这两个数据集本质上是真实图像数据集和伪造图像数据集(在我们的例子中是生成的图像)。FID通常使用两个大型数据集计算。但是,在本文件中,我们将使用两个小型数据集。
让我们首先从ImageNet-1k训练集中下载一些图像。
from zipfile import ZipFile
import requests
def download(url, local_filepath):
r = requests.get(url)
with open(local_filepath, "wb") as f:
f.write(r.content)
return local_filepath
dummy_dataset_url = "https://hf.co/datasets/sayakpaul/sample-datasets/resolve/main/sample-imagenet-images.zip"
local_filepath = download(dummy_dataset_url, dummy_dataset_url.split("/")[-1])
with ZipFile(local_filepath, "r") as zipper:
zipper.extractall(".")
from PIL import Image
import os
dataset_path = "sample-imagenet-images"
image_paths = sorted([os.path.join(dataset_path, x) for x in os.listdir(dataset_path)])
real_images = [np.array(Image.open(path).convert("RGB")) for path in image_paths]
这些是来自以下ImageNet-1k类别的10张图像:“cassette_player”、“chain_saw”(x2)、“church”、“gas_pump”(x3)、“parachute”(x2)和“tench”。
真实图像。
现在图像已加载,让我们对它们应用一些轻量级的预处理,以便用于FID计算。
from torchvision.transforms import functional as F
def preprocess_image(image):
image = torch.tensor(image).unsqueeze(0)
image = image.permute(0, 3, 1, 2) / 255.0
return F.center_crop(image, (256, 256))
real_images = torch.cat([preprocess_image(image) for image in real_images])
print(real_images.shape)
# torch.Size([10, 3, 256, 256])
现在,我们加载DiTPipeline
来生成以上述类别为条件的图像。
from diffusers import DiTPipeline, DPMSolverMultistepScheduler
dit_pipeline = DiTPipeline.from_pretrained("facebook/DiT-XL-2-256", torch_dtype=torch.float16)
dit_pipeline.scheduler = DPMSolverMultistepScheduler.from_config(dit_pipeline.scheduler.config)
dit_pipeline = dit_pipeline.to("cuda")
words = [
"cassette player",
"chainsaw",
"chainsaw",
"church",
"gas pump",
"gas pump",
"gas pump",
"parachute",
"parachute",
"tench",
]
class_ids = dit_pipeline.get_label_ids(words)
output = dit_pipeline(class_labels=class_ids, generator=generator, output_type="np")
fake_images = output.images
fake_images = torch.tensor(fake_images)
fake_images = fake_images.permute(0, 3, 1, 2)
print(fake_images.shape)
# torch.Size([10, 3, 256, 256])
现在,我们可以使用torchmetrics
计算FID。
from torchmetrics.image.fid import FrechetInceptionDistance
fid = FrechetInceptionDistance(normalize=True)
fid.update(real_images, real=True)
fid.update(fake_images, real=False)
print(f"FID: {float(fid.compute())}")
# FID: 177.7147216796875
FID越低越好。以下几件事可能会影响FID:
- 图像数量(真实和伪造)
- 扩散过程中产生的随机性
- 扩散过程中的推理步数
- 扩散过程中使用的调度器
对于最后两点,因此,最好在不同的种子和推理步数下运行评估,然后报告平均结果。
FID结果往往很脆弱,因为它们取决于很多因素。
- 计算过程中使用的特定Inception模型。
- 计算的实现精度。
- 图像格式(如果我们从PNG开始与从JPG开始不同)。
牢记这一点,FID通常在比较类似的运行时最有用,但除非作者仔细公开FID测量代码,否则很难重现论文结果。
这些要点也适用于其他相关指标,例如KID和IS。
作为最后一步,让我们直观地检查fake_images
。
伪造图像。