Getty Images 为 Hugging Face 带来高质量、商业安全的训练数据集

社区文章 发布于 2024 年 9 月 6 日

Andrea Gagliano,Getty Images 首席 AI/ML 科学家

Hugging Face 社区大家好!我们是 Getty Images,很高兴能与 Hugging Face 合作,分享一份我们认为大家会喜欢的东西——AI/ML 科学家现在可以访问一份新的我们完全拥有版权的创意图片及相关结构化元数据的样本数据集,这份数据集现已在 Hugging Face 上线。

Getty Images 样本数据集包含来自 15 个类别、共 3,750 张高质量图片,为各种应用提供了广泛的视觉素材。如果您正在构建生成式 AI 模型或增强机器学习功能,并且希望模型不仅美观,还能以负责任的方式构建并可用于商业用途,那么这份数据集非常适合您。

image/png

对于可能不熟悉 Getty Images 或正在疑惑为何我们在 Hugging Face 上出现的人,请了解我们对视觉内容充满热情,相信你们中的许多人也是如此。对于需要介绍的朋友,我们是全球领先的视觉内容创作者和市场,也是人们发现、购买和分享来自世界顶级摄影师和摄像师的强大视觉内容的首选之地。

您可能不知道的是,我们也认为构建 AI/ML 功能,数据与算法同样重要。您可以拥有最佳的模型架构,但如果您的数据不达标,您的输出也将不尽如人意。

这就是为什么我们精心策划了一个包含高质量图片和丰富元数据的样本数据集。我们的数据代表了最干净、最高质量的创意图片开放数据集,为您提供:

  • 持续高质量的图片,没有低分辨率问题

  • 丰富的结构化元数据,帮助您的模型更好地理解上下文

  • 精选内容,无过多信息图表和 NSFW 内容

  • 训练数据中没有不必要的名人图片、商标品牌、产品或角色,以及可识别的人物或地点

  • 详细的使用权信息,让您安心无忧。

负责任地构建

我们还热衷于尊重创作者的权利,并通过获得权利持有人的同意进行 AI 训练来维持持续的创作。这意味着这份样本数据集是商业安全的,您可以专注于构建和创新,而无需担心意外侵犯他人的权利。

但“商业安全”究竟意味着什么?对我们而言,这意味着我们的数据集不包含被盗用的训练数据。这意味着我们的数据集是干净的,由授权的创意预拍摄视觉素材(非编辑类)组成。这意味着生成的输出将不会包含商标品牌、产品或角色,或可识别的人物或地点。

此外,如果您从我们这里获得完整数据集的授权,您将为更可持续的生态系统做出贡献。我们训练数据授权的收入将回馈给创作者,支持那些使这些图片成为可能的艺术家和摄影师。这是一种负责任的创新方式,确保参与创意过程的每个人都能从中受益。

我们不仅仅是发布这份样本数据集然后消失——我们希望参与 Hub 上的讨论。我们在这里是为了合作,分享见解,看看 Hugging Face 社区将用这些数据创造出怎样的奇迹。无论您是在改进现有模型还是从零开始,我们都期待看到您如何突破界限。

社区

注册登录以评论