发布 Youtube-Commons:一个用于对话和多模态数据的海量开放语料库
社区文章 发布于 2024 年 4 月 18 日
我们今天宣布在 HuggingFace 上发布 Youtube-Commons
- Youtube-Commons 是迄今为止最大的完全免费许可的视频语料库。
- Youtube-Commons 包含 200 万个 CC-By 视频,并附有出处和归属文档。
- 我们收录了元数据和完整转录本,这使其成为最大的对话数据集合之一,包含近 300 亿个单词。
- Youtube-Commons 是多语言的,包含各种欧洲语言的翻译。
Youtube-Commons 是 Common-Corpus 的后续项目,Common-Corpus 是由 Pleias 协调的一项国际倡议,旨在发布来自公共领域的最大开放预训练语料库。Youtube-Commons 也获得了 Lang:IA 的支持,Lang:IA 是一家由法国文化部和数字管理局 (Agent Public) 支持的国有初创公司。Pleias 是一家法国初创公司,专门从事在完全开放和可审计语料库上进行文档处理的大型语言模型训练。
Youtube-Commons 由其原始作者在免费许可 (CC-By) 下发布的材料组成。目前,关于这些资源用于预训练大型文本或多模态模型的伦理和法律用途存在争议。我们认为,尊重许可条款(特别是关于归属)和知识共享的一般理念对于任何未来的最终用途项目都至关重要:我们提供了必要的元数据来做到这一点,并邀请所有未来的项目维护可重现性、透明度和对公共领域的互惠贡献等关键原则。
尽管 Youtube-Commons 规模庞大,但距离覆盖 Youtube 上所有可用的免费许可内容还相去甚远。我们发布此语料库的动机之一是 OpenAI 极具争议地使用 Youtube 视频中的版权内容,无论是用于 GPT-4(超过 100 万个转录本),还是可能用于其视频生成模型 SORA。通过此次发布,我们旨在证明人工智能开发与科学可重现性和符合版权法是可能协调的。我们还寻求赋能替代的、更道德的方法。
Youtube-Commons 仅仅是第一步。我们目前正在扩大这个集合的规模和内容,包括相关的音频、图像和视频材料。