OCR 后校正:通过大型语言模型(LLM)进行自动 OCR 校正的 10 亿词数据集
Pleias 发布最大的自动 OCR 校正开放数据集
- OCR 后校正数据集包含来自通用语料库的 10 亿词,通用语料库是 Pleias 上个月发布的 5000 亿词开放语料库。
- 该数据集是多语言的,包括来自法国、英国、德国和意大利报纸和专著的文化遗产文本。
- OCR 后校正的最新突破得益于开放式大型语言模型(LLM)研究的进展,以及 Pleias 几个月来的专门训练和对齐。
- OCR 后校正的生成是在 Jean-Zay 上使用 GENCI-IDRIS 的 HPC 资源(拨款 2023-AD011014736)完成的。
OCR 的问题
OCR 质量是数字化中长期存在的问题。文化遗产文本尤其受到影响,因为原始资料是旧文档(包含许多人工痕迹、污迹、退化),并且 OCR 技术对历史手稿的局限性。
我们一个月前发布通用语料库时,这是主要的批评之一,因为大多数文本都存在许多错误(通常每 10 个词至少有一个错误,有时甚至更多)。这显然对该资源在文化分析和语言模型训练方面的潜在用途产生了许多不确定性。
OCR 模型已经使用了一种非常原始的 LLM 形式:它们倾向于用当代文本中更可能的词来替换错误书写的词。这就是为什么我们最终在数字图书馆中会看到 19 世纪作品中出现许多“互联网”的例子(通常是“interest”中排版错误的变形)。
Transformers 或 SSM 模型有潜力更好地执行此任务,因为它们考虑了围绕单词的整个特定上下文。理论上,它们可以提供与人类读者相同质量的单词替换。然而,这更复杂。我们最初的测试显示了一系列问题,包括幻觉和遗漏。还有一个非常引人入胜的问题可能需要进一步研究:语言切换。OCR 错误似乎会扰乱嵌入空间中的语言检测,模型会生成法语或德语的校正文本。这在通用模型(如 Claude)的零样本中非常普遍,在我们的数据集中则罕见得多,但仍可能发生。
举一个典型的例子,这段摘录自《纽约先驱论坛报》(1853 年 5 月 9 日)
FTSAFFCIAX AJTD COMMKRCIAL。
货币市场。
星期日,5 月 &?下午 6 点。
加拿大监察员 U4**nl 刚刚向议会提交了该省 1H52 年的贸易和航运年报,截至 1 月份,这份文件经过精心准备,分为四部分,共八页。我们注意到,去年从大不列颠进口的商品减少了 1,377,000 美元。然而,这似乎是 1861 年从该国进口过多的结果,该年比 1850 年多 2,416,212 美元。但 1862 年比 1851 年从北美增加了。
被不正确地“校正”为法语,并偶尔带有一些英语词语
FTS Affiché et Commerce Commercial。
货币市场。
星期日,5 月 26 日下午。
立法者向大会提交了关于 1852 年该省贸易和航运重要性的报告,截至 1 月底,这份文件在指导下准备,并固定为四小时半的卷,包含八页,我们从中得知大不列颠在该年度的进口减少了 1,377,000 美元。然而,这似乎是 1861 年从该国进口过多的结果,该年增加了 2,416,212 美元。但 1862 年比 1851 年从美洲殖民地增加了。
当前结果和用例
Pleias 是一家法国初创公司,专门从事在完全开放和可审计语料库上训练用于文档处理的大型语言模型。
我们已经研究了通过大型语言模型(LLM)进行 OCR 后校正近三个月。目前的结果在各种欧洲语言中都令人鼓舞,即使文本严重退化。
例如,以下摘录自《奥马哈蜜蜂报》(1890 年 6 月 25 日),包含许多 OCR 错误
"奥马哈!日报蜂。
第二十周年。奥马哈。周三早间。(!1890 年 6 月 25 日。第 7 号。
被火焰吞噬,一个纵火犯在内布拉斯加州蓝山村发泄他的报复。近二十家商店被抹去,造成的损失估计超过五万美元,保险相对较少。
内布拉斯加州蓝山村,6 月 24 日。(《蜜蜂报》特约电讯。)今天早上 2M,蓝山村主街北侧两处同时发生火灾。歌剧院的一处,几乎在街道的最东端,在 O. C. 1K. Lolgman、B. II. Munson 夫人和 Munson 夫人住宅的女佣的努力下被扑灭。我"
被非常正确地重建如下,只有少数元素可能不正确(2M 变为 2:30)。
"奥马哈每日蜜蜂。
第二十年。奥马哈,星期三上午。1890 年 6 月 25 日。第 7 号。
被火焰吞噬,
一个纵火犯在内布拉斯加州蓝山村发泄了他的复仇。
近二十家商店被烧毁,
损失金额估计超过五万美元,保险相对较少。
内布拉斯加州蓝山村,6 月 24 日。(致《蜜蜂报》特约电讯。)今天早上 2:30,蓝山村主街北侧两处同时发生火灾。歌剧院的一处,几乎在街道的最东端,在 O. C. J. Longman、B. H. Munson 夫人和 Munson 住宅的女佣的努力下被扑灭。
数据集中的所有文本均来自《通用语料库》中整合的藏品。该语料库主要包含 19 世纪的法语、英语、德语和意大利语文本,分布如下:
- 法语:来自 Gallica 的报纸文本,438,034,960 词。
- 英语:来自 Chronicling America 的报纸文本,300,522,681 词。
- 意大利语:来自各种来源的专著文本,特别是互联网档案馆,144,441,539 词。
- 德语:来自各种来源的专著文本,特别是互联网档案馆,97,396,147 词。
作为 Pleias 对开放科学承诺的一部分,本次发布旨在在发布我们基于大型语言模型的 OCR 后校正模型之前,共同评估 OCR 后校正过程的质量。
虽然我们目前不建议直接使用文本输出,但这已经可以成为 OCR 编辑的潜在资源,特别是对于 Wikisource 等社区倡议。此外,数字人文领域大型 OCR 语料库的文本分析也可以受益于校正后的文本,即使存在残余错误风险。