面向文生图的众包开放偏好数据集
在快速发展的文生图领域,人类偏好数据集对模型质量和对齐产生了巨大影响。这些模型的输出难以有效衡量,更不用说获得可量化的主观指标进行评估或训练。而人类偏好,只要数量和质量足够,就能提供这样的指标。
然而,收集这样的人类偏好数据集面临一个关键挑战:它们需要大量的人力资本,即足够多的标注者,才能在可行的时间范围内收集到具有相关维度的数据集。这传统上伴随着巨大的成本。
由于这些限制,公开可用的人类偏好数据集非常稀缺,这限制了社区开发前沿模型的能力。
Huggingface社区的“Data is better together”(数据协作更好)倡议旨在改变这一现状,他们公开呼吁收集Open Preferences Dataset V1中17000对图像的偏好数据。
TLDR;我们希望为此做出贡献,并在不到2天的时间内,从全球49241名独立标注者那里收集了超过17万条人类偏好数据。
输入数据集
输入数据集的详细信息在“数据协作更好”社区发布的博客文章和数据集中都有描述。以下是简要摘要:
概述
open-image-preferences-v1数据集是通过Distilabel生成的清理和过滤后的提示词,并用合成数据进行增强。图像则使用Flux和Stable Diffusion模型生成。
输入提示词和过滤
Imgsys的提示词通过自动化分类器(文本/图像)和人工审查进行重复和毒性过滤。NSFW(不适宜工作场所)内容已被移除,确保了数据安全和高质量。
合成提示词增强
提示词被重写为不同的类别(例如,电影、动漫、霓虹朋克)和不同的复杂程度(简化版与详细版)。例如:
- 默认:“一张没有琴弦的竖琴。”
- 风格化:“一张没有琴弦的竖琴,动漫风格,背景为柔和色调。”
- 高质量:“一张没有琴弦的竖琴,动漫风格,具有丰富纹理,黄金时段光线。”
图像生成
图像使用以下模型创建:
- stabilityai/stable-diffusion-3.5-large
- black-forest-labs/FLUX.1-dev
结果
“Data is better together”社区提供了34k张图像,组织成17k对,这些图像由8.5k个基础提示词的两个版本生成(一个简单版本,一个风格化/高质量版本,具有相同的核心语义)。这些图像可在open-image-preferences-v1数据集中找到。在其相关的结果数据集中,他们提供了17k对中的10k对的人类偏好。每对图像收集了约3个偏好。为了扩展数据集,我们为每个17k对图像收集了10个偏好,使用我们Rapidata标注平台的API,总共获得了170k个偏好。
主要区别
我们收集偏好的方法使得新数据集与原始数据集在以下方面有所不同:
- 我们的标注者只选择两种图片选项,而原始数据集还包括“两者都好”和“两者都差”的选项。然而,由于偏好数量更多,可以通过均匀的偏好分布推断出同样好的图片(参见“标注者一致性”部分)。
- 我们的偏好来自规模更大、更多样化的标注者群体。原始数据集中,每个标注者平均提供了120个偏好,而我们的标注者平均提供了3.5个偏好。此外,原始数据集约一半的标注由五名标注者提供。这意味着我们的数据集受个体标注者偏见的影响要小得多。
- 每对图像的偏好数量更多,意味着可以进行更细致的分析,通过查看偏好分布来量化一张图像比另一张图像受欢迎的程度。
- 我们的数据集为每个偏好提供了额外的元数据,例如标注者的国家和语言。这些数据可在数据集的
detailed_results
列中找到。
标注者一致性
对于原始数据集,作者通过查看每个图像对的唯一响应比例来分析标注者之间的一致性。鉴于每个图像最多只能有两个唯一响应,这种分析不直接适用于我们的数据集。相反,我们分析了一致性,即每个图像对中被选择最多的选项与总偏好数量之间的比率。结果显示在下面的直方图中。低一致性表示两个模型表现同样出色,而高一致性则意味着一个模型明显优于另一个。我们还创建了数据集的二值化版本,其中从结果中推断出单个偏好的模型,并舍弃了模棱两可/相同的结果。通常,仅仅从通用偏好数据中无法清楚地了解为什么一张图像比另一张更受欢迎。例如,是因为图像更赏心悦目,还是因为图像与提示词更吻合?在我们之前收集的偏好数据集中,例如我们的基准数据,我们为偏好指定了三个不同的标准:风格、连贯性和提示词-图像对齐。
模型性能
与原始数据集类似,我们也分析了两个模型在不同类别下的性能。虽然在任何类别中平局都不是最突出的,但我们的结果总体上与原始数据集的结果一致。FLUX 模型在动漫和漫画方面更受欢迎,而 Stable Diffusion 模型在其他方面更受欢迎,即:
- FLUX-dev 更好:动漫,漫画
- SD3.5-XL 更好:电影、数字艺术、奇幻艺术、插画、霓虹朋克、绘画、像素艺术、摄影、动画、3D模型
有趣的是,根据我们的数据,SD3.5-XL 在3D模型方面明显更受青睐,而原始数据集则显示FLUX-dev更受欢迎。可以进行进一步分析,以了解其背后的原因。例如,是否因为3D模型类别在额外考虑的7k对图像中占比较高,或者可能是由于前面提到的标注者偏见。
标注者多样性
如前所述,我们的数据来自一个庞大且多样化的标注者群体。原始数据集仅代表250名标注者,这些标注者在人口统计学上可能非常相似,而我们的数据集具有文化多样性,代表了来自全球各地的49,241名标注者。响应来源国家的分布情况可以在下面的直方图中看到。
接下来呢?
我们希望这个数据集能够被用于训练和微调新模型,特别是利用可量化图像偏好程度的额外信息。甚至可以利用标注者的元数据。像这样的简单偏好是一个很好的开始,但它们缺乏更深入的见解。例如:这张图像被偏好是因为艺术风格更令人愉悦、整体更连贯,还是因为它与提示词对齐得更好?此外,图像或提示词的哪些部分存在偏差?这种丰富的反馈在我们丰富的人类反馈数据集中进行了探索,将其应用于开放图像偏好数据集将会很有趣。