推出维基百科月刊:为NLP和AI研究提供新鲜、干净的维基百科转储

社区文章 发布于 2025年7月19日

本文也发布在我的个人博客

我很高兴地宣布**维基百科月刊**,这是一个在我构建多语言AI系统,特别是我在开发Sawalni(第一个摩洛哥达里贾语LLM)时,因必要性而诞生的项目。

问题所在

Hugging Face Hub 上的官方维基百科数据集严重过时——上次更新是在 **2023 年**。这意味着缺少了 18 个多月的内容、文化变迁和知识更新。当您为低资源语言构建 AI 系统或需要最新信息时,这会成为真正的瓶颈。

我当时遇到的问题是:

  • 过时的数据:缺少近期事件、文化发展和知识更新
  • 受限的语言:自 Huggingface 上次数据集更新以来,新增了 29 种语言
  • 显著的内容差距:自上次更新以来,大多数语言的内容增长了 10-50%
  • 缺乏灵活性:无法为特定用例定制清洗流程

解决方案

维基百科月刊通过以下方式解决此问题:

  • 每月更新 341+ 种语言的维基百科内容
  • 干净、即用的文本,已解析MediaWiki标记
  • 包含原始 MediaWiki 源代码,以满足自定义后期处理需求
  • 通过 Hugging Face Hub 一行代码加载数据集
  • 新增 29 种官方 HF 数据集中未提供的语言
  • 反映最新知识和文化发展的当前内容

工作原理

该管道简单但功能强大:

  1. 从维基媒体下载最新的维基百科转储
  2. 过滤掉除主要文章以外的所有内容
  3. 将 MediaWiki 语法解析为干净文本
  4. 通过智能配置命名上传到 Hugging Face Hub

开始使用

使用此数据集非常简单,只需


from datasets import load_dataset

# Load English Wikipedia from the latest dump
# Better to stream it, it's 20GB+ in size!

dataset = load_dataset("omarkamali/wikipedia-monthly", "latest.en", split="train", streaming=True)

# Or load a specific date

dataset = load_dataset("omarkamali/wikipedia-monthly", "20250701.ar", split="train")

您会得到什么

每篇文章都包含:

  • 干净的纯文本内容
  • 原始 MediaWiki 源代码(如果需要)
  • 文章标题和维基百科 URL
  • 唯一页面标识符

当前状态

您可以查看数据集页面以获取实时统计数据和可用语言。

指标
🌍 可用语言 341
📄 文章总数 6450万
💾 总大小 205.54 GB

这为何重要

在我为低资源语言开发人工智能的过程中,我亲身体验到过时数据会如何限制可能性。在构建 SawalniTarjamli 和其他多语言项目时,拥有最新、与文化相关的内容不仅仅是锦上添花,对于创建真正服务于不同社区的人工智能而言,这是至关重要的。

新鲜且易于获取的维基百科数据为以下领域开辟了新的可能性:

  • 低资源语言人工智能:构建反映当前文化背景的模型

  • 多语言研究:用最新跨语言知识训练系统

  • 文化传承:捕捉不断演变的语言模式和文化参考

  • 信息检索:了解近期事件和发展的系统

  • 教育应用:提供最新、准确信息的学习工具

后续工作

该系统每月自动运行,确保您始终能访问最新的维基百科内容。无需再处理陈旧的转储文件或复杂的预处理管道。如果您想赞助计算资源,请告诉我。

请查看 Hugging Face 上的维基百科月刊,并告诉我您用它构建了什么!


维基百科月刊建立在维基媒体基金会和开源社区的卓越工作之上。所有内容均保留原始的 CC-BY-SA-4.0 许可。

阅读更多关于我的工作和我的Python 包

社区

我正在寻找标准塔马齐格特语的维基百科,但在官方数据集中没有找到,因为它始于2023年,但它在你的数据集中。非常感谢!

·
文章作者

这就是我制作这个数据集的原因,有很多新的有用数据,比如塔马齐格特语数据,但很难获取。感谢你的反馈 @ayymen

注册登录 发表评论