使用 DeepSeek Janus-1.3B 进行 OCR 处理和图像文本分析

社区文章 发布于 2024 年 10 月 22 日

我之前在此处发布的分析讨论了使用 Microsoft Florence-2-base 和 Alibaba Cloud Qwen2-VL-2B 获取的 OCR 过程和分析结果。

DeepSeek 最近发布了一个新模型:名为 Janus,这个“新颖的自回归框架 […] 统一了多模态理解和生成”。它已在约 5000 亿个文本标记的语料库上进行训练,并支持 384 x 384 的图像输入分辨率。与其他多模态模型不同,Janus 使用单一、统一的 Transformer 架构进行处理,但据描述,它能够通过将视觉编码解耦为单独的路径来解决“以前方法的局限性”。Janus-1.3B 于 2024 年 10 月 18 日发布。

在分析了使用 Florence-2-base 和 Qwen-2-VL-2B 进行 OCR 处理和分析的结果之后,将其与最新发布的 Janus-1.3B 的结果进行比较将很有趣。

本研究与之前在相同条件下进行。该模型在 Google Colab 上使用。给 Florence-2-base 和 Qwen2-VL-2B 的相同命令和指令也提供给了 Janus-1.3B。本研究使用的材料是相同的包含文本的图像语料库(包含不同时期、不同语言的手写和打印文本示例,以及包含文本元素的艺术品示例)。

Janus-1.3B 对美国宪法的分析

Janus-1.3B 在本研究中分析的第一张图像是 1787 年美国宪法第一页的摘录。

image/webp

我们首先使用命令“CAPTION”来分析这张图像。以下是使用 Janus-1.3B 获得的描述:“一张写着‘我们人民’的纸”。

第二个命令“DETAILED_CAPTION”导致以下结果:“在这张图像中,我们可以看到一张纸上有一些文字”。

第三个命令是“MORE_DETAILED_CAPTION”:“图像是一本书的一页。书的标题是‘我们人民’。这一页是棕褐色的。页面上的文字是用黑色墨水书写的。页面底部有一个签名。签名是外语。这本书又旧又破。页面上写有草书文字”。

正如我们在这些结果中看到的,Janus-1.3B 对图像和文本的分析更加字面化,如果它们仔细描述了页面的外观和美学特征,它们却没有指出有关文档本身的任何上下文元素。

有趣的是,它还(用英语)指出文本是用“外语”书写的。这可能是因为 Janus-1.3B 是由中国公司 DeepSeek 发布的,这可能导致它将英语检测为外语。这也可能是由于字母的草书风格引起的误解。

作为比较,以下是使用 Florence-2-based 获得的描述,对于该模型,模型似乎清楚地使用了它自己的知识进行分析

image/png

如果使用 Florence-2-base 的结果自动识别(并且正确地)该文档为美国宪法,它们也强调了当模型基于其自己的先前知识进行分析时可能带来的错误(在这种情况下,当它指出美国宪法是由约翰·F·肯尼迪签署时,可能将其与美国历史事件联系起来)。

Janus-1.3B 对美国宪法的 OCR 处理结果如下

"Wethe Peopleof the Unitedinsure domestic Frangultty provide for this common defense, promote theand our Pouterity, al ordan and establish this Constitution for the United!Kircle 1.Statian. All aguatine Poree lown gandale sutting by the bockitian, and hil hul muitie of the houd and houStation. 2. The The The of The The Tho of The Thon of the Thon and the thon of thon and thon.The thon is the tht of the thom of the fonon and hon. The thon on the thot of the sotn of the bonon, and the honon of honn of thom.The hanan of the lonon in the hanon of a hon, the hs the ht of thn. The han on the hinon of tn the hil of the uonon".

正如我们所看到的,尽管模型一开始似乎能正确地识别单个字母,但 Janus 1.3B 在转录整个单词并尊重它们在文档布局中的位置时似乎存在问题,导致拼写错误和不准确的描述。与其他我们以前使用的模型不同,该模型也很快进入循环。Janus 1.3B 在分析图像中的文本时,难以处理不同类型的布局。

对一篇法文手写文本的分析:文森特·梵高的信

下一篇文本已在之前的研究中由 Florence-2-base 和 Qwen2-VL-2B 分析过,是文森特·梵高在 1888 年用法语手写的一封信,其中还包含一幅画。

image/jpeg

以下是 Janus-1.3B 使用“CAPTION”命令获得的结果:“一张纸上画着一个人和一棵树”。与 Florence-2-base 和 Qwen2-VL-2B 不同,Janus-1.3B 没有给出对文本的解释。图像的描述准确、简明,但没有任何上下文或解释。

我们使用“DETAILED_CAPTION”命令进一步要求模型描述图像,结果如下:“在这张图像中,我们可以看到一张纸。纸上画着一个人、一棵树和一些文字。” 再次,结果准确、字面化,不包含任何上下文元素,也没有试图解释图像或转录文本。

“MORE_DETAILED_CAPTION”的结果如下:“一张写有文字的纸。纸上有一幅画。这幅画是黑白的。文字是外语。” Janus-1.3B 正确地检测到画作的存在(黑白)以及它是用外语书写的(这次是法语,但它没有识别出来)。

以下是 Janus-1.3B 对法文信件的 OCR 转录:“Est Céguilo ont la le live cle JelvostreJn Euy Delacrout anna' que l'arricleJn la couleurdus la grummane clesart. cluclofin ole ch. Blanc.demandes leundone cela de mau purst ofVernon vido nont pas du celu g nilsle lisent. Fépense mus a Rembrufplus g'n'l ne peut praire dans mesclado.Dolci Grugquis de me clermire tule entrainenco m juneur, Jumme Solleil, Gel yurt jum e nuy owne. loberau vielat le samur 1l'utre blue de prese/tide de 30”。

与 Qwen2-VL-2B 相比,后者提供了法文信函的最佳转录(并成功准确地转录了诸如德拉克洛瓦等艺术家的名字),或 Florence-2-base 尝试破译和转录法文文本,此结果表明 Janus-1.3B 在处理文本,尤其是法文文本方面确实存在问题。手写的事实可能使 Janus-1.3B 更难正确转录。

对一份英文打印报纸文本的分析:《纽约时报》1912 年头版

为了比较 Janus-1.3B 与 Florence-2-base 和 Qwen2-VL-2B 在 OCR 处理和文本分析方面的能力,本研究使用了另一个已用另外两个模型分析过的图像示例。在这种情况下,图像是 1912 年 4 月《纽约时报》的头版,报道了泰坦尼克号沉没的消息。

image/webp

“CAPTION”命令导致了以下简短描述:“一篇关于《纽约时报》的报纸文章。” 值得注意的是 Janus-1.3B 使用的措辞,它表明这不是“来自”《纽约时报》的文章,而是显然“关于”它的文章。这个结果表明模型正确识别了报纸的布局和格式及其名称。然而,它没有提供任何进一步的信息或上下文,无论是日期还是头版描述的事件。

“DETAILED_CAPTION”内容如下:“在这张图片中,我们可以看到一张纸。纸上有一张船的照片。纸上还写着一些东西。” 在这个指令下,模型再次将注意力更多地集中在图像的美学品质上,而不是其文本内容上。虽然它指出了船的图片,但它没有试图解释或情境化它。Janus-1.3B 提到“纸上写着一些东西”,但它没有处理文本的任何元素。

“MORE_DETAILED_CAPTION”带来了以下结果:“《纽约时报》以黑白印刷。水中有一艘船的图片。这艘船很大,冒出很多烟。” Janus-1.3B 再次正确识别了此图像中的主要元素(报纸名称、船的图片以及此图片的描述),但没有提供有关文本的任何其他信息。它没有识别出它指的是哪个事件,即使沉没的泰坦尼克号的名称在文章顶部清晰可见。与 Florence-2-base 和 Qwen2-VL-2B 不同,Janus-1.3B 不那么关注上下文,并且不尝试从自己的知识中检索任何信息:这可能对结果产生积极和消极影响。模型缺乏上下文知识意味着它对内容没有偏见,不会误解内容或在描述中犯错误。尽管如此,这带来的问题是,通过不尝试对图像进行上下文化或分析,转录和描述非常简短,不够深入且不完整。

当应用于 Janus-1.3B 时,“OCR”命令导致以下转录

"Wall the News That'sThe New York Times.THE WEATHER.Fit to Print.JINY YORK, TURBAL, IL. 22-WENT-POIN PAGLE.WILL THE WEATHER,WILLI. J. T. TUNDAY, J.T. 22 - TWENT-POUR PAIGLE.COM.TITANIC SINKS FOUR HOURS AFTER HITTING ICEBERG;866 RESCUED BY CARPATHIA, PROBABLY 1250 PERISH;ISMA SAFE, MRS. ASTOR MAYBE, NOTED NAMES MISSINGCol. Astorstraus and Bride,Biggest Liner Pungersand Mj. But. Boardto Bottomof A.20 A.M.ROULE OF SEAT FOLLOWEDRESCULES THERE TOO HAN,PICKED UP ATTERHOUSESWOMEN AND CHILDREN PIRTYCUNDER HOPFULL ALL DAYSEA SEARCH FOR OTHERSFRANKEN HOPPULL, ALL DAYTHEAD OF THE LINE AROUNDOLIVING SENDS FOR THE NEWThe Lost Titanic Belfing Towed Out of Belfast Harbor.PARTAL LIST. OF THE SAVED.The Lostitanic Belfing, Towed out of Belast Harbor.LIVING SENDS OF THE SAVED.In addition to Mr. Wilkins, Mr. Willeman, The Mr. William, the Mr.Willeman and Mr. Willam, The M. Wilman, the Mrs. Wileman, and the Brides of the Cetetet, The St.Wilman and Mrs. Mr. williams, The Mrs.Wileman and the Mrs, The Marlast Harbor.The lostitanic Belfing, LIST OF THE SAFED.Coffee St. F. M.F.M., I.T., The Str.W. W. WILM. The Mrs. Wollman, who is the M.Walesman, I'm. The Marleman and I. Walesman will be the Marlant, and I'm, The Man. The Man is the Man.The Man, who was the Man, and The Man, the Man's The Man was the Woman, The The Man's Man, The Woman's Man. He's the Man-The Man was The Man-Towel, and he's the man-The man was the man. The man was a Man-and I'm the Man Man, He's a Man, he's a man-and the Man to the Man -The Man-A".

与其他结果相比,《纽约时报》头版的 OCR 结果表明 Janus-1.3B 能够相当好地转录文本,尤其是在单独处理字母方面。然而,它没有尝试将单词放置在更易读和准确的布局中。虽然文章的一部分被正确转录,但在某些部分,单词之间没有任何空格。该模型在处理和正确转录标题中的大量信息(名称、口号、日期、地点、文章标题等)时也遇到了困难。它最终也进入了循环。

对一封英文手写文本的分析:伊丽莎白二世女王写的信

Janus-1.3B 分析的下一篇文本是未来女王伊丽莎白二世在 1945 年写的一封信,我们之前也已用 Florence-2-base 和 Qwen2-VL-2B 分析过。

image/png

在此图像中,文本是手写的,这次是英文。由于它只是整封信其中一页的摘录,因此当时伊丽莎白公主的签名并未出现。信件标题中只有“白金汉宫”的字样提供了上下文。

给予 Janus-1.3B 的第一个命令是“CAPTION”,它导致了以下描述:“一封手写信件,日期为 1945 年 4 月 24 日。” 再次,描述内容准确。它没有试图根据文本或整个图像来处理、理解和解释上下文。它提到的日期是准确的。

“DETAILED_CAPTION”导致了以下结果:“在这张图片中,我们可以看到一张纸,上面有一些文字和一个邮票。” 有趣的是,即使有提供更多信息的指令,Janus-1.3B 的描述也更少描述性,指出有邮票的存在,但这次却漏掉了日期。

“MORE_DETAILED_CAPTION”命令带来了更完整的描述:“一封信写在奶油色纸上。字母是草书。纸的顶部有一个红色邮票,上面写着‘白金汉宫’。” 在这个例子中,Janus-1.3B 再次正确地处理和描述了图像(纸张的颜色,添加了字母是草书的说明,指出“白金汉宫”的红色邮票)。这表明它能够分析此图像中的美学元素以及文本。尽管如此,值得指出的是,与 Florence-2-base 和 Qwen2-VL-2B 多次尝试情境化内容不同,Janus-1.3B 根本没有尝试这样做。Florence-2-base 和 Qwen2-VL-2B 的分析都导致了非常描述性且几乎富有想象力的结果,例如通过搜索自己的知识来寻找这封信的潜在收件人(Florence-2-base 甚至假装是写给伊丽莎白女王未来的丈夫菲利普亲王的,即使根本不是这样),但 Janus-1.3B 根本没有尝试情境化文本。

伊丽莎白二世女王信件的 OCR 分析结果如下:“a April1945.BUCKINGHAM PALACEDear may,J was so delghilled toreceive to your letter of goodwishes,for my birthday.Thankyn s so much for thinking of me.I'm sorry to cheer That youare on sick leave, but-9 do hopeyou are feeling letters now. Thisto walker a good time of yourto get leave reallyand won thatwe have got the good weather,are migll as well make less of it.I've just finished a wechauicscurse in the A.I.S. which 9”。

这种转录表明,虽然 Janus-1.3B 能够准确地转录字母,但它在理解整个单词以及将它们置于正确的句子中方面存在许多困难。它也完全没有对文本进行情境化。总体而言,对英文手写文本的转录效果优于法文信函的示例,后者根本毫无意义。尽管如此,英文转录中也存在许多错误(例如,当它指出信中写着“are feeling letters now”而不是“are feeling better now”时)。

包含文本元素的艺术品分析:让-米歇尔·巴斯奎特(Jean-Michel Basquiat)的《公证人》(NOTARY)(1983)

为了更全面地了解 Janus-1.3B 在 OCR 处理和图像文本转录方面的能力,似乎有必要添加另一种包含文本的图像类型:因此,本研究也处理了之前用 Florence-2-base 和 Qwen2-VL-2B 分析过的让-米歇尔·巴斯奎特的同一件艺术品。

这幅名为《公证人》(NOTARY)、创作于 1983 年的画作,将视觉和文本元素融合在一起,这在巴斯奎特的艺术作品中很常见。

image/jpeg

如果说 Florence-2-base 正确识别了艺术家的名字,并且 Qwen-2-VL-2B 对这件艺术品中显示的所有文字给出了相当准确的描述,那么将它们的结果与 Janus-1.3B 获得的结果进行比较将很有趣。

“CAPTION”命令导致了以下第一个描述,它非常简短但正确:“一幅画着男人头部和身体的画,上面有很多文字。”

“DETAILED_CAPTION”实际上更短:“在这张图片中,我们可以看到一幅画。” 虽然这表明 Janus-1.3B 具有检测艺术品的能力,但它没有添加任何其他上下文元素,也没有解释或转录内容。

“MORE_DETAILED_CAPTION”的结果更完整、更准确:“图像是一幅画。这幅画色彩鲜艳。画的中央有一个人的脸。画上也有文字。文字是用不同的语言写的。脸是白色的,眼睛是黑色的。嘴巴是张开的。鼻子是黑色的。眼睛是蓝色的。脸的轮廓是红色的。” 在这个例子中,Janus-1.3B 也显示了处理和分析视觉内容的潜力。美学品质是主要焦点,尤其是在画中人物之一的身上。如果它确实提到“画上也有文字”,但模型没有尝试转录任何内容。它还在这种情况下指出文字是“用不同的语言写的”。与之前的图像一样,Janus-1.3B 没有情境化巴斯奎特画作,也没有尝试识别艺术家或主题。

巴斯奎特画作的 OCR 命令导致了以下转录:“NOTARYCASCALO0MARITPLUTO0ELEASPVMAROUSSTUDY OF THE150.MALE TORSOHESSYDEUTUTUTO150RE VULDEHYDRATISICKLESDEHYDRAMATTOCKSTHIS NITEFOR ALL DE BTSSALTESALERPUBLIC+PRIVATE46.LEECHESBUCKERMANITES47.LEECCHES304. BRANNER”。

与使用 Florence-2-base 获得的结果类似,Janus-1.3B 的转录表明该模型能够准确地检测和转录图像中存在的单个字母——但它没有使其易于阅读,因为所有字母都并置在一起,并且单词之间没有任何空格。在这种情况下,Qwen2-VL-2B 实际上成功地对这件艺术品中的文本元素进行了更正确的转录。

结论

总结这项研究,可以说 Janus-1.3B 在图像分析方面可能具有潜力。虽然它描述图像的结果清晰、切中要害且简洁,但缺乏上下文在某些情况下也可能成为问题。Janus-1.3B 是一个超级直观的模型,它确实能够提供准确的美学描述,但它却一直遗漏重要元素,尤其是在处理文本时。

正如我们之前的研究所示,处理打印文本时效果更好。在 Janus-1.3B 的情况下,手写文本示例更难以处理,尤其是法语手写文本。正如文森特·梵高的信件所示,转录根本没有任何意义——甚至比 Florence-2-base 的转录更糟,后者也包含许多错误。

在处理文本和视觉内容时,Janus-1.3B 根本没有尝试情境化。与 Florence-2-base 和 Qwen2-VL-2B 不同,它不使用其知识来定位和解释图像中的内容。如果这导致了其他两个 VLM 模型的结果出现错误和误解,那么上下文的缺乏使得 Janus-1.3B 的转录和描述不完整且非常简短。这还导致处理单词时出现误解和布局问题。这个问题还表明该模型可能难以正确理解和处理整个图像。尽管如此,这些非常字面的描述的好处是它们不包含任何文本偏见,并且它们不会使模型误解内容。

在描述图像美学元素时获得的更积极的结果(尤其是巴斯奎特画作)表明,Janus-1.3B 目前可能更适合处理视觉内容,而不是文本。该模型生成的标题总是将主要焦点放在图像的外观上,而不是文本。这可能很有趣,对于未来的研究,我们可以再次比较 Janus-1.3B 与 Florence-2-base 和 Qwen2-VL-2B 分析艺术品和视觉内容的能力。

参考书目。

  1. 美国宪法, 1787
  2. 文森特·梵高,《致提奥·梵高的信》,阿尔勒,1888 年 11 月 21 日,梵高信件(https://www.vangoghletters.org/vg/letters/let722/letter.html#original)
  3. 《泰坦尼克号撞上冰山四小时后沉没》,摘自《纽约时报》,1912 年 4 月 16 日,维基共享资源,(https://upload.wikimedia.org/wikipedia/commons/0/04/Titanic-NYT.jpg)
  4. 伊丽莎白二世女王,《致玛丽的信》,1945 年 4 月 24 日 (https://www.express.co.uk/news/royal/1668073/queen-handwritten-letter-friend-world-war-two-spt)
  5. 让-米歇尔·巴斯奎特 (1960-1988),《公证人》,1983 年,普林斯顿大学艺术博物馆

社区

注册登录 发表评论