宣布推出 Finance Commons 和 Bad Data Toolbox:开创开放数据和先进文档处理的先河
我们很高兴地宣布同时发布 Finance Commons(最大的开放金融文档集合,包含 170 亿个标记)和“Bad Data Toolbox”(我们的第一个语言模型套件,擅长处理具有挑战性的文档并优化其在 LLMops 中的使用)。
我们如何不再关心并开始训练劣质数据
在过去一年中,生成式 AI 在受监管、信息密集型领域的应用备受期待,但成功率却远低于预期。结构不良或格式错误的数据往往是主要原因。迄今为止,语言模型大多在基于网络的数据上进行训练,这些数据越来越多地经过质量和文本清晰度过滤。RAG 等应用型 LLM 系统在集成 PDF 源时反复遇到困难。嵌套表格、多列结构、OCR 错误、文本流中断以及混合视觉和文本信息对检索和 LLM 理解构成了重大挑战。
我们逆当前关于高质量数据的共识而行,自愿使用包括不完美的 OCR、文字混乱的断裂文本和模糊结构在内的劣质数据来训练我们的新系列模型。我们的整体理念是,组织应该努力为 LLMops 和其他 AI 应用准备其内容。如果 AI 能够像声称的那样自动化流程,那么 AI 就应该自行处理这些问题。

我们的“Bad Data Toolbox”包含多个在劣质数据上训练的、具有前所未有鲁棒性的模型。初步结果表明,语言模型可以在许多文档上“按原样”使用,几乎无需任何预处理。我们发布了三个针对“前沿”任务的模型,这些任务虽然在企业环境中普遍存在,并且对 LLMops 应用具有新的相关性,但迄今为止尚未得到探索
- OCronos:用于 OCR 校正的解码器模型
- Segmentext:用于文本分割的编码器模型。
- Bibtexer:用于结构化书目提取的编码器模型
我们还发布了两个空间,并获得了 HuggingFace 的慷慨计算支持
- PleIAs-Editor,一个集成管道,用于将劣质文本用于 RAG 和其他高级检索应用。
- Reversed-Zotero,一个将非结构化书目自动转换为 BibTex 数据并可在 Zotero 中打开的工具。

未来的发布还将侧重于劣质数据的生成,因为创建更接近生产中实际使用的合成数据被证明对开发鲁棒的 LLM 和嵌入模型至关重要。
文档 AI 的真实资源:Finance Commons 数据集
为了解决将文档 AI 研究与生产中遇到的挑战更紧密地结合起来的问题,我们推出了 Finance Commons
- 多模态:该数据集是最大、最多样化的开放多模态文档集之一,包含来自 AMF 和 WTO 的 125 万份原始 PDF 文档,由广泛的企业参与者制作。这些文档涵盖了工业和经济部门生产的各种内部布局和格式。
- 时间覆盖广,直至 2024 年:目前,它包括截至 2024 年提交给证券交易委员会(SEC)和法国金融市场管理局(AMF)的所有年度财务报表和报告,以及世界贸易组织(WTO)和提交给 TED 平台的欧盟招标的历史档案。我们计划在未来几个月内将覆盖范围扩大到其他国家和机构。
- 开放数据:所有这些文档都已在开放数据平台上提供,可用于支持开放研究。
- 支持下一代模型:该数据集旨在通过提供多样化的布局和挑战来支持下一代多模态文档模型。

完整的 Finance Commons 数据集可在 HuggingFace 上的专用空间中浏览。
数据集 | # 文档 | # 字数(十亿) |
---|---|---|
世界贸易组织 | 642,627 | 1.68 |
美国证券交易委员会 | 245,211 | 7.25 |
法国金融市场管理局 | 610,989 | 4.7 |
关税及贸易总协定 | 60,182 | 0.1 |
欧盟招标 | 224,049 | 0.3 |
我们会在 AGI 之前解决 PDF 解析问题吗?
我们最近看到 AI 在文档处理方面的研究和创新加速发展,新一代视觉语言模型在文本分割 (Florence)、检索 (ColPali) 和整体文档理解 (Surya) 方面表现出前所未有的性能。

我们发布 Finance Commons 和 Bad Data Toolbox 旨在支持这些努力,并为公司提供完全开放、高质量和专业的数据。这项倡议是 PleIAs 创建用于 AI 研究的大型开放训练数据集的全球承诺的一部分。2024 年 3 月,我们协调发布了 Common Corpus,这是最大的开放预训练数据集,包含来自公共领域集合的 5000 亿个单词。我们相信开放数据集对于支持 AI 领域的开放研究、确保可重复和协作工作以及提高公众对新技术的接受度(尤其是在受监管的环境中)至关重要。