从人工标注到LLM辅助管道:Typica.ai 数据集管理回顾
Typica.ai 创始人 | UQAM (CRIA AI Lab) 外部研究员
电子邮件:assoudi@typica.ai;assoudi.hicham@courrier.uqam.ca
摘要
在这篇回顾中,我们介绍了 Typica.ai 数据集整理的演变,从早期的人工标注到现代的 AI 辅助管道,以构建高质量的 NLP 数据集。2020 年,我们使用 Doccano、Heroku 和一个涉及小型本地标注团队的主动学习循环,引导了双语 NER 数据集(摩洛哥阿拉伯语和法语)的开发。这些数据集使基于 MAGBERT 的 NER 模型得以训练,其中一个模型已公开发布。我们反思了遇到的挑战(例如由于 Heroku 账户问题导致的数据丢失)和吸取的经验教训。最近,我们转向使用 Oracle 云基础设施 (OCI) 进行基于云的标注,并采用了 Distilabel 和 DeepSeek 等 LLM 来生成指令微调数据集。本文总结了五年在不同成熟度和工具阶段的 NLP 数据集整理实践经验。
1. 引言
尽管大型语言模型(LLM)占据了全球头条,但数据集创建的基础工作仍然是一个瓶颈——特别是对于低资源语言和领域。在 Typica.ai,我们的旅程始于致力于为摩洛哥语境(阿拉伯语 MSA、法语和达里贾语)构建 NLP。在本文中,我们追溯了从基层标注项目到现代 AI 辅助数据管道的轨迹,并分享了塑造我们发展的实践和见解。
2. 数据集目标和整理策略 (2020–2025)
在过去的五年里,Typica.ai 的目标是为现代标准阿拉伯语 (MSA)、摩洛哥正式语境中使用的法语以及摩洛哥方言阿拉伯语 (Darija) 构建高质量、具有文化背景的 NLP 数据集。这些数据集支持了多代模型——从早期的命名实体识别 (NER) 系统到最近的指令微调大型语言模型 (LLM)。
我们的整理策略分为三个主要阶段
NER 的人工引导 (2020)
我们首先开发了两个核心 NER 数据集,重点关注:- MSA(现代标准阿拉伯语):使用摩洛哥媒体中的正式阿拉伯语。
- 摩洛哥法语:捕捉区域特定的语言和命名实体模式。
这些数据集由一个摩洛哥学生小团队手动标注。文本从摩洛哥新闻网站等公开在线资源收集,确保了领域和写作风格的多样性。
迭代标注与自动化
使用 Doccano,我们实施了一个主动学习管道来加速标注过程:- 从手动标注的种子样本开始。
- 训练一个轻量级模型来预标注下一批数据。
- 手动审查并纠正这些标注。
- 重新训练并迭代。
这种方法实现了可扩展的 NER 标注,具有一致的质量和更快的周转时间。
LLM 时代的整理和达里贾语扩展 (2023–2025)
近年来,我们将重点扩展到:- 摩洛哥方言阿拉伯语 (Darija):为低资源生成任务创建精选和合成数据集。
- 指令微调数据集:涵盖阿拉伯语、法语和达里贾语。
我们采用了:
- 通过 Oracle 云基础设施 (OCI) 进行云端标注,用于监督标注工作流。
- Distilabel,用于 LLM 驱动的合成数据生成的可靠和可扩展管道。
- LLM(例如 DeepSeek、OpenAI),用于合成数据生成和评估。
在这一演变过程中,我们的 NLP 导向数据集标注工作涵盖了多项任务,包括命名实体识别 (NER)、情感分析、词性标注和基于指令的生成任务,所有这些都根据摩洛哥语境的语言和文化细微差别进行了调整。
最初专注于正式语言的 NER 工作,已经发展成为一个更广泛、可扩展的管道,用于为摩洛哥 AI 生态系统构建多语言和文化相关的数据集。
3. 挑战与经验:基础设施故障和数据丢失
在我们的早期工作流程中,我们曾遇到一个与平台相关的问题,导致突然无法访问一个关键的标注环境。在这种情况下,我们的设置托管在 Heroku 上,但这个教训具有普遍性:当使用第三方服务或云平台时,未能实施强大的备份和监控策略可能导致不可逆转的数据丢失。
由于没有自动化备份,我们丢失了几周的手动标注数据——这突出表明,在非正式对待早期数据集时,它们是多么脆弱。
主要经验教训:
- 务必自动化备份。对于高价值数据,手动导出和临时保存是不够的。
- 将标注项目视为生产系统。标注环境应享有与任何关键应用程序相同的可靠性和可观察性。
- 版本控制、监控和保护您的数据集。已标注数据应安全存储、版本控制并定期审计。
这次经历重塑了我们对数据集基础设施的看法。从那时起,我们采用了数据弹性的最佳实践,包括自动备份、存储冗余和严格的版本控制的云原生管道。
4. 使用 OCI 进行基于云的标注和模型开发
在面对早期自托管工具的局限性之后,我们将整个数据标注和模型开发工作流程迁移到 Oracle 云基础设施 (OCI)。这一转变是一个转折点:它使我们能够将标注、训练和部署整合到一个统一、可扩展且安全的环境中。
使用 OCI 数据标注和 OCI 数据科学,正如我的著作 《Oracle 云基础设施上的自然语言处理》 中详细描述的那样,我们能够:
- 在企业级云环境中集中管理数据集。
- 根据需求使用经济高效的 GPU/CPU 计算实例扩展训练。
- 使用 OCI 内置的 MLOps 工具,将模型部署和监控直接集成到开发生命周期中。
- 强制执行安全存储、版本控制和团队协作,消除了早期与脆弱的自托管平台相关的风险。
这种云原生方法使我们能够从探索性工作流程转向可重现的、生产级 NLP 管道——同时保持对数据隐私、成本和治理的控制。
此外,使用 OCI 帮助我们弥合了人工标注循环和 LLM 时代自动化管道之间的鸿沟,为我们提供了更快迭代、跟踪质量和自信地操作模型所需的基础设施。
5. 进入 LLM 时代:将 Distilabel 与开源和商业模型结合使用
随着我们转向训练指令微调模型,我们采用了:
- Distilabel,用于 LLM 驱动的合成数据生成的可靠和可扩展管道。
- LLM(例如 DeepSeek、OpenAI),用于合成数据生成和评估。
Distilabel 使我们能够:
- 以编程方式生成数千个数据样本。
- 使用多个 LLM 自动化反馈。
- 通过有选择的人工审查保持高数据质量。
这一转变标志着我们从人类驱动的数据集开发转向 AI 增强的数据集开发——极大地缩短了周转时间和标注成本。
6. 反思与启示
阶段 | 工具与基础设施 | 成果 |
---|---|---|
2020 年 人工标注 | Doccano + 自托管基础设施 (例如 Heroku) | MSA 和法语的 NER 数据集;早期的达里贾语实验 |
基础设施挑战 | 有限的备份和监控 | 大量标注丢失;导致更严格的数据治理 |
OCI 转型 | OCI 数据标注 + 数据科学 | 端到端可重现的训练和部署工作流程 |
2024–2025 年 LLM 时代 | Distilabel + LLM (例如 DeepSeek, OpenAI) | 用于合成数据和指令微调的可扩展管道 |
核心经验教训
我们从 Typica.ai 5 年的数据集整理实践中(有时是艰难地)学到的经验。这些见解继续塑造着我们如何处理达里贾语等低资源语言的 NLP 以及如何构建稳健的 AI 系统。
- 您的数据是您的护城河。 模型无处不在——让您具有竞争力的是您独特且精心整理的数据。
- 智能自动化。 使用 Doccano 和 Distilabel 等工具进行扩展,但在最重要的地方保持人工参与。
- 迭代自动标注。 从小样本开始,训练,标注更多,改进——这个循环每次都能节省时间并提高质量。
- 培训您的标注员。 训练有素、具有文化意识的标注员每次都优于普通标注团队。
- 垃圾进,垃圾出。 糟糕的数据会导致有偏见、脆弱或不可信的模型。
- 人机交互至关重要。 即使使用 LLM 生成或评估数据,人工监督也能确保信任和准确性。
- 数据集就是代码。 对它们进行版本控制、备份、记录更改。它们是您的知识产权。
- 语境至关重要。 对于像达里贾语这样的语言,您需要从一开始就将本地和文化理解融入数据中。
- 混合管道取胜。 结合专业知识、自动化、LLM 和反馈循环以获得最佳结果。
7. 结论
我们的数据集整理之旅反映了 NLP 的更广泛演变——从小型、人工标注的数据集到可扩展、模型辅助的管道,能够支持尖端的 LLM 应用。最初是基于人工标注的基层努力,现已发展成为一个集人类专业知识、云基础设施和 AI 驱动自动化于一体的完全集成的生态系统。
对于从事低资源语言或特定文化领域工作的团队,我们的经验提供了一个实用的蓝图:精简启动,在关键领域实现自动化,并将您的数据视为最有价值的资产。每个数据集决策——从标注策略到基础设施选择——都对模型质量和系统可信度产生持久影响。
我们希望这份回顾能帮助那些面临类似挑战的人——无论是在开源 NLP 工作、负责任的 AI 开发还是国家级数字化转型倡议中。
回顾过去,我们认识到,即使是最小的实验——如果精心设计并有目的性——也能演变成强大、面向未来的管道。基础工作只有在你停止在此基础上构建时才会过时。
资源
- MAGBERT-NER (法语) 演示: https://huggingface.co/spaces/TypicaAI/MagBERT-NER-Fr
- 书籍: 《Oracle 云基础设施上的自然语言处理》, Apress, 2025
作者简介
Hicham Assoudi 是一位人工智能研究员、Oracle 专家、作家和 Typica.ai 的创始人,这家初创公司致力于为低资源语言构建 NLP 工具。他拥有人工智能博士学位,是蒙特利尔 UQAM 人工智能实验室 (CRIA) 的外部研究员。
联系我们
如有问题、合作或反馈,请随时联系:
📧 电子邮件: assoudi@typica.ai
🌐 网站: https://typica.ai
🔗 LinkedIn: linkedin.com/in/assoudi