发布 Artificial Analysis 文本到图像排行榜和竞技场
自基于扩散的图像生成器问世以来的短短两年内,AI 图像模型已达到近乎照片级的质量。这些模型相比如何?开源替代方案是否能与它们的专有对手相提并论?
Artificial Analysis 文本到图像排行榜旨在通过基于人类偏好的排名来回答这些问题。ELO 分数是通过在 Artificial Analysis 图像竞技场收集的超过 45,000 条人类图像偏好数据计算得出的。该排行榜囊括了领先的开源和专有图像模型:最新版本的 Midjourney、OpenAI 的 DALL·E、Stable Diffusion、Playground 等。
在此处查看排行榜:https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard
您也可以参与文本到图像竞技场,在投票 30 次后获得您的个性化模型排名!
方法论
传统上,比较图像模型的质量比评估其他 AI 模态(如语言模型)更具挑战性,这在很大程度上是由于人们对图像应如何呈现的偏好存在内在的可变性。随着图像模型达到非常高的准确度,早期的客观指标已让位于昂贵的人类偏好研究。我们的图像竞技场代表了一种大规模收集人类偏好数据的众包方法,首次实现了关键模型之间的比较。
我们通过对所有偏好进行回归来为每个模型计算 ELO 分数,这与 Chatbot Arena 类似。参与者会看到一个提示和两张图片,并被要求选择最能反映该提示的图片。为确保评估能反映广泛的用例,我们为每个模型生成了超过 700 张图片。提示涵盖了多种风格和类别,包括人像、人群、动物、自然、艺术等。
来自结果的初步洞见 👀
- 尽管专有模型领先,但开源模型正变得越来越有竞争力:包括 Midjourney、Stable Diffusion 3 和 DALL·E 3 HD 在内的专有模型在排行榜上领先。然而,一些开源模型,目前以 Playground AI v2.5 为首,正在迎头赶上,甚至超过了 OpenAI 的 DALL·E 3。
- 该领域正在迅速发展: 图像生成模型的格局正在迅速演变。就在去年,DALL·E 2 还是该领域的明显领导者。如今,DALL·E 2 在竞技场中的被选率不到 25%,并且是排名最低的模型之一。
- Stable Diffusion 3 Medium 的开源可能会对社区产生重大影响:Stable Diffusion 3 是当前排行榜上顶尖位置的竞争者,Stability AI 的首席技术官最近在与 AMD 的一次演讲中宣布,Stable Diffusion 3 Medium 将于 6 月 12 日开源。与 Stability AI 当前提供的 Stable Diffusion 3 模型(推测是全尺寸变体)相比,Stable Diffusion 3 Medium 的性能可能稍逊一筹,但这个新模型可能会为开源社区带来巨大推动力。正如我们在 Stable Diffusion 1.5 和 SDXL 上所见,我们很可能会看到社区发布许多微调版本。
如何贡献或联系我们
要查看排行榜,请访问 Hugging Face 上的空间:https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard
要参与排名并贡献您的偏好,请选择“图像竞技场” (Image Arena) 选项卡,然后选择您认为最能代表提示的图片。在评选 30 张图片后,选择“个人排行榜” (Personal Leaderboard) 选项卡,即可根据您的选择查看您自己的个性化图像模型排名。
如需获取最新信息,请在 Twitter 和 LinkedIn 上关注我们。(我们还在我们的网站 https://artificialanalysis.ai/text-to-image 上比较了文本到图像模型 API 端点的速度和定价)。
我们欢迎所有反馈!您可以通过 Twitter 消息或通过 **我们的网站** 上的联系表单与我们联系。
其他图像模型质量倡议
Artificial Analysis 文本到图像排行榜并非唯一的质量图像排名或众包偏好倡议。我们建立我们的排行榜是为了专注于涵盖专有和开源模型,以全面了解领先的文本到图像模型的比较情况。
查看以下其他优秀的倡议: