维基百科的知识宝库:利用多样化数据推进机器学习

从机器学习伊始,维基百科就一直是模型训练和评估数据的宝贵来源。其开放许可数据使其易于访问、处理,并具有实际应用和影响的潜力。虽然维基百科是维基媒体项目的核心,但维基媒体社区维护着各种各样的项目,每个项目在全球知识传播和协作生态系统中都发挥着独特的作用。这些项目包含多种模态的数据;文本、图像、音频和结构化数据由一个庞大的国际社区维护,确保了数据对用户的质量。
与维基媒体类似,Hugging Face 也以社区驱动的工作、协作和信息可访问性为中心。虽然许多维基媒体数据已在 Hugging Face 上可用,但仍有大量数据尚待探索。利用这些社区创建的数据,可以创建具有高质量和广泛视角的模型,这将有益于整个社区。因此,这是您从现有数据创建更多高质量数据集、构建更多项目并为机器学习数据集领域做出贡献的机会。
为什么选择维基媒体数据用于机器学习?
- 丰富多样的内容:维基百科文章涵盖科学技术、艺术文化等不同主题,为各种领域的机器学习模型训练和微调提供了丰富多样的语料库。此外,维基百科的多语言特性确保了知识以多种语言传播,使其成为构建包容性、全球相关人工智能系统的宝贵资源。
- 多模态数据:维基媒体数据集不仅包含文本内容,还包含来自维基数据等项目的图像和结构化知识图谱(KGs)等多模态数据。这种多模态特性使研究人员能够探索图像字幕、实体链接和多模态学习等任务的新方法,从而丰富人工智能系统理解和解释不同模态信息的能力。
- 社区策展和开放许可:维基媒体数据集的关键优势之一是其协作和社区驱动的性质。维基百科文章和其他项目的数据由全球志愿者社区撰写、编辑和策展,确保了多样化的视角和专业知识。此外,维基媒体内容以知识共享等开放许可发布,使其可以自由访问、重用和再分发,符合开放科学和知识共享的原则。
尊重社区
与社区合作的核心是征得他们的同意,并尊重他们对数据如何以及哪些数据被重用以及启用模型训练的意愿。特别是关于社区的数据,例如编辑历史、不同语言维基百科的政策和读者数据,都应谨慎对待。例如,英文维基百科社区曾撰文指出维基百科不是一个实验室。需要强调的重要方面是,不应扰乱社区及其项目,例如,未经社区同意导入生成的文章。特别是对于编辑数据,尊重编辑选择退出研究的意愿非常重要。
Hugging Face 上更多维基媒体数据——如何实现?
将数据集添加到 Hugging Face 很容易。如果您已经拥有与维基媒体相关的数据集,请考虑上传它,以便其他人可以在您的工作基础上继续构建。如果您想了解更多关于维基媒体数据的多样性以及您可以基于它构建什么,请查看我们的 ICWSM 2024 维基媒体数据教程的材料。该教程区分了建模内容和建模行为,即社区生成的内容数据,例如 Hugging Face 上不同语言维基百科文章的数据集,以及社区互动中生成的数据,例如 Hugging Face 上三个语言维基百科上删除文章讨论中政策使用的数据集。添加更多此类数据可以极大地提高数据的可访问性,以及我们在机器学习社区中可以构建的内容。特别是通过添加更多模态,例如来自维基共享资源(包含音频和图像数据)的数据。
如果您创建了新的维基媒体数据集,请考虑添加 wikimedia 标签并将其添加到Hugging Face 社区的维基媒体数据集集合中,以使数据集更容易被发现。
Hugging Face 社区在将可用数据转换为数据集方面已经取得了重大进展,我期待着看到您接下来将构建什么。
图片来源
标题图片
握手:Vectorstall, CC BY-SA 4.0, via Wikimedia Commons;维基百科徽标:Wikimedia Foundation, CC BY-SA 3.0, via Wikimedia Commons;渐变背景:JOGOS Public Assets, CC BY-SA 4.0, via Wikimedia Commons