让我们一起来创建一个惊艳的图像生成模型吧!
社区文章 发布于 2024 年 11 月 26 日
最优秀的图像生成模型都经过人类偏好数据集的训练,其中注释者从两个选项中选择最佳图像。不幸的是,许多此类数据集都是闭源的,因此社区无法在其上训练开放模型。让我们改变这种状况!
社区可以为开源数据集贡献图像偏好,该数据集可用于构建将文本转换为图像的 AI 模型,例如 Flux 或 Stable Diffusion 系列。该数据集将是开源的,因此所有人都可以使用它来训练我们都可以使用的模型。
如何参与
如果您想为数据集做贡献,可以通过注释应用程序(使用 Argilla UI)添加偏好。您应该遵循以下步骤:
- 前往 Argilla Space 并使用您的 Hugging Face 个人资料登录。
- 查阅关于如何选择最佳图像的指南,以及优化工作流程的技巧。
- 根据注释指南对您偏好的图像进行排名。您应该根据图像的审美吸引力以及它们与提示的符合程度进行排名。
- 在排行榜上查看您的贡献。
如何使用数据集
我们将在项目进行期间定期分享数据集,因为数据集正在进行标注。因此,您将能够下载它以进行探索或训练您自己的模型。
如果您想使用此数据集,可以立即开始。我们将在 Hugging Face Hub 上以名为 `data-is-better-together/image-preferences-argilla` 的数据集存储库分享图像偏好数据集。
from datasets import load_dataset
dataset = load_dataset("data-is-better-together/image-preferences")
参考资料
- 排行榜 一个跟踪社区为数据集添加偏好进度的仪表盘。
- Argilla Space 托管数据集供社区贡献的空间。
- distilabel:一个用于创建合成数据集的工具。我们使用 distilabel 来演进提示并创建图像偏好数据集。
- Hugging Face Spaces:一个托管机器学习应用程序和演示的平台。我们使用 Spaces 托管用于提示排名的 Argilla 工具。
- Argilla:我们用于提示排名的开源数据标注工具。Argilla 可以选择使用 Hugging Face 进行身份验证,这使得社区贡献更加容易。