推出维基百科月刊:为NLP和AI研究提供新鲜、干净的维基百科转储
本文也发布在我的个人博客上
我很高兴地宣布**维基百科月刊**,这是一个在我构建多语言AI系统,特别是我在开发Sawalni(第一个摩洛哥达里贾语LLM)时,因必要性而诞生的项目。
问题所在
Hugging Face Hub 上的官方维基百科数据集严重过时——上次更新是在 **2023 年**。这意味着缺少了 18 个多月的内容、文化变迁和知识更新。当您为低资源语言构建 AI 系统或需要最新信息时,这会成为真正的瓶颈。
我当时遇到的问题是:
- 过时的数据:缺少近期事件、文化发展和知识更新
- 受限的语言:自 Huggingface 上次数据集更新以来,新增了 29 种语言
- 显著的内容差距:自上次更新以来,大多数语言的内容增长了 10-50%
- 缺乏灵活性:无法为特定用例定制清洗流程
解决方案
维基百科月刊通过以下方式解决此问题:
- 每月更新 341+ 种语言的维基百科内容
- 干净、即用的文本,已解析MediaWiki标记
- 包含原始 MediaWiki 源代码,以满足自定义后期处理需求
- 通过 Hugging Face Hub 一行代码加载数据集
- 新增 29 种官方 HF 数据集中未提供的语言
- 反映最新知识和文化发展的当前内容
工作原理
该管道简单但功能强大:
- 从维基媒体下载最新的维基百科转储
- 过滤掉除主要文章以外的所有内容
- 将 MediaWiki 语法解析为干净文本
- 通过智能配置命名上传到 Hugging Face Hub
开始使用
使用此数据集非常简单,只需
from datasets import load_dataset
# Load English Wikipedia from the latest dump
# Better to stream it, it's 20GB+ in size!
dataset = load_dataset("omarkamali/wikipedia-monthly", "latest.en", split="train", streaming=True)
# Or load a specific date
dataset = load_dataset("omarkamali/wikipedia-monthly", "20250701.ar", split="train")
您会得到什么
每篇文章都包含:
- 干净的纯文本内容
- 原始 MediaWiki 源代码(如果需要)
- 文章标题和维基百科 URL
- 唯一页面标识符
当前状态
您可以查看数据集页面以获取实时统计数据和可用语言。
指标 | 值 |
---|---|
🌍 可用语言 | 341 |
📄 文章总数 | 6450万 |
💾 总大小 | 205.54 GB |
这为何重要
在我为低资源语言开发人工智能的过程中,我亲身体验到过时数据会如何限制可能性。在构建 Sawalni、Tarjamli 和其他多语言项目时,拥有最新、与文化相关的内容不仅仅是锦上添花,对于创建真正服务于不同社区的人工智能而言,这是至关重要的。
新鲜且易于获取的维基百科数据为以下领域开辟了新的可能性:
低资源语言人工智能:构建反映当前文化背景的模型
多语言研究:用最新跨语言知识训练系统
文化传承:捕捉不断演变的语言模式和文化参考
信息检索:了解近期事件和发展的系统
教育应用:提供最新、准确信息的学习工具
后续工作
该系统每月自动运行,确保您始终能访问最新的维基百科内容。无需再处理陈旧的转储文件或复杂的预处理管道。如果您想赞助计算资源,请告诉我。
请查看 Hugging Face 上的维基百科月刊,并告诉我您用它构建了什么!
维基百科月刊建立在维基媒体基金会和开源社区的卓越工作之上。所有内容均保留原始的 CC-BY-SA-4.0 许可。