使用 Florence-2-base 和 Qwen2-VL-2B 进行 OCR 处理和图像文本分析

社区文章 发布于 2024 年 10 月 18 日

正如我之前的研究所示,Microsoft Florence-2-base 和 Alibaba Cloud Qwen2-VL-2B 是两个能够分析艺术品的模型。通过对象检测和图像描述,我们已经能够评估它们识别艺术家姓名和风格、确定创作时期以及解读艺术品的能力。

尽管一些问题得到了缓解,特别是在分析抽象艺术时,但这两个模型都取得了不错的成果。Qwen2-VL-2B 甚至能够识别克劳德·莫奈和文森特·梵高的画作,并对其艺术品进行极其准确的描述,这可能也基于它自身的知识。在这种情况下,这些画作是艺术家最著名的作品:莫奈的是《印象,日出》(1872 年);梵高的是《星月夜》(1889 年)。但艺术品的识别可能是由于模型识别和处理了签名。

这让我们不禁思考,这些经常用于视觉内容的模型,是如何也能够处理、转录和理解文本内容的。

因此,我们将在本文中探讨 Florence-2-base 和 Qwen2-VL-2B(在 Google Colab 上使用)如何分析图像中的文本。

中世纪图像中的文本分析

本研究使用的第一张图片是一幅中世纪图像,其中包含拉丁语和法语文本元素:这是一本约 1450 年在法国西部(可能是南特?)书写的《时祷书》,一本带插画的羊皮纸手稿。

image/jpeg

使用 Florence-2-base 分析《时祷书》

我们使用 Florence-2-base 分析了这本中世纪《时祷书》图像中的文本。结果如下:

使用 CAPTION 命令,模型识别出书籍的布局(“一本书页面上一群人的图片”)。

当任务为“DETAILED CAPTION”命令时,它将其类别更改为一幅画,并提及了文本但未对其进行处理:“在此图像中我们可以看到一幅画。画中有几个人。画上还写着一些东西”。

使用“MORE DETAILED CAPTION”命令,模型继续完整描述图像,但未注意到文本元素,也未说明时间段和上下文:“一群人的图片。一名身穿白色连衣裙的女子站在一名男子面前。该男子穿着蓝色长袍。人们身后有树木”。

我们继续使用 OCR 任务提示分析这本《时祷书》中的拉丁文文本内容。模型给出了以下答案:“placado dio ps”。它只能处理部分文本并理解错误。

使用 Qwen2-VL-2B 分析《时祷书》

我们使用 Qwen2-VL-2B 分析了《时祷书》中的同一张图片,以了解该模型处理、转录和分析图像中文本的能力。

首先,模型被要求解释文本和图像,它给出了以下描述:

“图像描绘了一页中世纪手稿,其中包含详细的插图和华丽的书法。插图被放置在一个矩形框架内,框架边缘是花卉和藤蔓图案。中心场景展示了一群人,包括一名妇女和一名儿童,站在花园或田野中。该妇女似乎在与跪着或鞠躬的儿童说话。背景包括有树木和山丘的景观,暗示着乡村或田园风光。\n\n页面上的文本以装饰性字体书写,其中“Dolce et Icarus”这两个词突出显示在中心。字体充满了复杂的图案和花纹,表明了高水平的工艺。文本周围是额外的装饰元素,包括花卉图案和旋转图案,这增加了页面的整体美感。\n\n书法优雅流畅,每个字母都精心制作,以创造和谐且视觉上令人愉悦的构图。色彩的使用也值得注意,文本和装饰元素以各种深浅的蓝色、绿色和金色绘制,与插图的白色背景形成美丽的对比。\n\n总而言之,该图像是中世纪手稿艺术的一个美丽范例,展示了精美的插图和华丽的书法,并置于一个装饰丰富的框架内。”

该模型在此描述中侧重于图像的审美特征,例如色彩、场景中的人物以及中世纪天主教哥特式手写体的质量:“书法优雅流畅,每个字母都精心制作,以创造和谐且视觉上令人愉悦的构图”。它成功地将手稿正确地追溯到中世纪。该模型指示存在文本元素,但并未完整转录,仅提及了两个单词“Dolce et Icarus”,它对此理解错误并未能正确识别。

在第二次尝试中,我们促使模型转录文本,它给出了以下结果:“图像中的文本是:\n\n“Placido dixit ps. Alexius quidam exaudiet dixit quae omnis”。这种转录仍然包含不准确之处,并且提供的文本比图像中实际存在的文本更多。此错误可能基于模型对类似中世纪文本的先前知识。无论如何,Qwen2-VL-2B 给出的转录比 Florence-2-base 获得的转录更精细。

在第三次尝试中,模型被要求翻译此图像中书写的文本,结果如下:“图像中的文本是:\n\n"Placido dixit ps. Alexius quidam exaudiet dixit quae omnis."\n\n这翻译为:\n\n"Placido said ps. Alexius, who once heard, said that all are”。这种从拉丁语到英语的翻译包含错误,并且延续了对识别中世纪手写体和拉丁文本的误解。Qwen2-VL-2B 分析的拉丁短语的直译将是:“Ps. Alexius平静地说,会有人听取大家所说的一切”。正如我们所看到的,与 Qwen2-VL-2B 更好地理解的其他语言不同,该模型在拉丁文本和翻译方面存在困难。它也可能在分析手写哥特字母方面遇到麻烦,这可能是其最初误解和后续翻译错误的原因。

分析著名的官方历史文本:《美国宪法》(1787年)

接下来用作 Florence-2-base 和 Qwen2-VL-2B 分析示例的图像包含《美国宪法》(1787 年)的文本。我们仅使用了这份官方文件的一部分,因为完整的图片要么质量较低(因此文本无法正确处理),要么质量非常高但对于 Google Colab 上使用 GPU 的两个模型来说处理起来太重。这是使用的确切图像:

image/webp

使用 Florence-2-base 分析美国宪法

Florence-2-base 使用 CAPTION 命令将这份包含美国宪法文本的图像描述为:“美利坚合众国宣言”。有趣的是,模型似乎部分识别出它与美国历史有关,但在其回答中似乎将《宪法》误认为是《独立宣言》(1776 年)。

我们使用 DETAILED_CAPTION 命令获得了以下描述:“图像显示了美国宪法文本,其中‘我们人民’字样以粗体黑色字体书写。纸张因年代久远而泛黄,文本周围环绕着装饰性边框”。这一次,Florence-2-base 正确处理和分析了文本,并提供了准确的描述。

在“MORE_DETAILED_CAPTION”命令下,Florence-2-base 似乎在处理整个文本时遇到了困难:“图像是一份文件的照片,标题为‘我们合众国人民’,用黑色墨水写在米色纸上。文件看起来很旧很破旧,边缘有一些折痕和褶皱。文本以草书字体书写,并居中排列。文本下方有一段文字,内容为‘确保国内安宁,提供共同防御,促进我们和我们的宪法,并为合众国建立本宪法。’文本还提到该文件由约翰·肯尼迪总统签署。” 尽管模型正确识别了图像的美学方面并将其与美国历史联系起来(在其描述中提到了宪法),但它不清楚究竟在哪里看到了约翰·肯尼迪总统的签名——他在这份文件写成后 170 多年才成为总统。

Florence-2-base 对美国宪法的 OCR 分析得到了以下转录:“我们合众国人民确保国内安宁,提供共同防御,促进我们和我们的后代,全体颁布并建立本合众国宪法!第一条。第一款。所有立法权都已授予国会,国会将由参议院和众议院组成。第二款。众议院应由各州人民每两年选出的议员组成,各州的选举人应具备各州议会人数最多的分支机构选举人所需的资格。任何参议员都不应是未满二十五岁,未在美国居住满七年,且当选时不是其所选州居民的代表。代表和直接税应按其各自的人数在各州之间分配,这可以通过将全体人民的总数,包括那些在规定年限内服役的人,以及不纳税的契约奴隶,计算三分之二的其他人的总和来确定。实际人口普查应在合众国国会第一次会议后三年内,以及之后每十年内,按照法律规定进行。代表人数不得超过每三万人一名,但每个州至少应有一名代表;在进行此人口普查之前,新罕布什尔州应有三名参议员;佛蒙特州应有三名参议员;纽约州应有两名参议员;宾夕法尼亚州应有两名参议员;特拉华州一名;马里兰州一名;弗吉尼亚州十名;北卡罗来纳州五名;南卡罗来纳州五名;佐治亚州五名。当任何州的代表出现空缺时,其行政当局应填补这些空缺。合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。在他们根据第一次选举分配后,应尽可能分为三个相等的部分,以使每个州的人民得到平等的代表。合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。众议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。”

Florence-2-base 在使用 OCR 任务提示转录文本时似乎存在拼写和理解问题,这可能是由于草书手写体造成的。随着它处理文本,它变得越来越困惑。以下词语甚至没有意义:“学徒王……以公社的形式……将用于其他简单的公社。高卢普罗旺斯。那里,美普洛狄西亚……合众国布雷姆特斯”。尽管模型确实尝试提供了冗长的转录,但很明显,草书手写风格导致了混淆,所使用的历史词语和表达方式可能导致了误解。

使用 Qwen2-VL-2B 分析美国宪法

在第二阶段,我们使用 Qwen2-VL-2B 处理了美国宪法的文本。总体而言,结果更加准确。从这些结果中可以看出,该模型似乎对美国历史有广泛的了解,能够在其描述中描述图片中或任务说明中均未提及的事物,这很有趣。

给 Qwen2-VL-2B 的第一个指令是“解释图片”。

这是给出的描述:“图像是美国宪法的照片,特别是第一页。文本以正式的草书字体书写,文件打印在类似羊皮纸的纸上。文本分为几个部分,每个部分都有一个标题和一段文字。该文件概述了美国政府的结构和权力,包括立法、行政和司法部门。文本以英语和拉丁语混合书写,反映了宪法撰写时的历史和文化背景。”

虽然描述比 Florence-2-base 精确得多,但结果仍提出了一些问题:文本并非完全以英语和拉丁语混合书写,因为整个文本中只有三个拉丁短语,甚至不在本次分析使用的文本部分中。这意味着模型了解这些句子存在于原始文本中,即使没有处理图像的精确部分,也根据其对整个文本的知识进行了推断。

接下来的尝试旨在推动 Qwen2-VL-2B 转录宪法节选,使用命令“转录图像中的文本”

“我们人民\n\n确保国内安宁,提供共同防御,促进\n\n以及我们的潜力,为合众国制定和建立本宪法\n\n第一条。此处授予的所有立法权均应归属合众国国会,该国会应由参议院和众议院组成。\n\n第二条。众议院应由各州人民每两年选出的议员组成,各州的选举人应具备各州议会人数最多的分支机构选举人所需的资格。\n\n任何参议员不得是未满二十五岁、未在美国居住满七年,且当选时不是其所选州居民的众议员。\n\n代表和直接税应按其各自人数在各州之间分配,该人数应通过将全体人民的总数,包括那些为期几年而被迫服役的人,以及不纳税的契约奴隶,计算三分之二的其他人的总和来确定。实际人口普查应在合众国国会第一次会议后三年内,以及之后每十年内,在每种情况下根据法律指示进行。代表人数不得超过每三万人一名,但每个州至少应有一名代表;在进行此人口普查之前,新罕布什尔州应有三名参议员;佛蒙特州应有三名参议员;纽约州应有两名参议员;宾夕法尼亚州应有两名参议员;特拉华州一名;马里兰州一名;弗吉尼亚州十名;北卡罗来纳州五名;南卡罗来纳州五名;佐治亚州五名。\n\n当任何州的代表出现空缺时,其行政当局应填补这些空缺。\n\n合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。\n\n在他们根据第一次选举分配后,应尽可能分为三个相等的部分,以使每个州的人民得到平等的代表。合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。\n\n众议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。\n\n合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。\n\n合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。\n\n合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。\n\n合众国参议院应由各州两名参议员组成,由其立法机关选举两年,每名参议员应有一票。\n\n”。

转录的开头与原始宪法并不完全一致——但这可能是因为图片中缺少部分文本,因此字面转录是正确的。转录在我们的图片最后一部分(第三节开头)之前结束。虽然转录非常忠实于原文,只有少数错误,但模型在结尾处确实进入了循环。

当被问及该文本的作者是谁时,模型回答道:“图片中的文本是美国宪法第一条第一款”。

我曾试图通过询问 Qwen2-VL-2B 是否能向我解释“这张图片中的英国宪法?”来混淆它。在英国,从未有过真正的宪法,而是各种条约、原则和惯例构成了其制度的基础。我想看看它在给出不正确指令时处理图像的能力。为了应对这种“挑衅”尝试,模型完全忽略了包含美国宪法文本的图像,并根据其对英国法律和政府结构的自身知识重新解释了答案。

“英国宪法是管理联合王国的法律和制度框架。它是一个复杂的体系,既包括成文法,也包括不成文法,还包括政府各部门的角色和职责。以下是英国宪法主要组成部分的简要概述:\n\n1. 君主制:英国是君主立宪制国家,君主(女王或国王)是国家元首。君主扮演仪式性角色,不拥有任何实际权力。\n\n2. 议会:英国实行两院制议会,由下议院和上议院组成。下议院是下议院,由人民选举产生。上议院是上议院,由君主任命。\n\n3. 政府:政府由首相(政府首脑)和内阁(一组共同管理政府的部长)组成。首相由君主任命,负责国家的总体治理。\n\n4. 司法机构:英国设有独立的司法机构,这是政府负责解释法律并确保其公平适用的部门。司法机构包括最高法院、高等法院和上诉法院。\n\n5. 法律:英国拥有全面的法律体系,包括普通法和制定法。普通法基于法院的判决,用于解决纠纷。制定法由议会制定,对各级政府都具有约束力。\n\n6. 2006 年宪法法案”。

Qwen2-VL-2B 不仅提供了对英国体系的详细描述,还成功地建立了其演示布局(使用粗体字体),并在分析之前对英国法律和机构的不同方面进行了分类。

对美国宪法的这项分析表明,虽然 Florence-2-base 在图像描述和 OCR 处理方面具有良好的能力,但其结果仍存在许多缺陷(特别是对于这份手写文档)。相反,Qwen2-VL-2B 在其分析中取得了更大的成功,但有趣的是,其转录和描述主要基于其自身对文本上下文的知识,而不是图像本身。

分析简·奥斯汀的手写英文信

本研究中评估 VLM 模型 OCR 能力的下一个示例是著名作家简·奥斯汀(1775-1817 年)的手写信件。在这封 1814 年的信中,作者写信给她的侄女安娜。

image/png

使用 Qwen2-VL-2B 分析简·奥斯汀的信件

我们使用 Qwen2-VL-2B 处理了这封信。

我们向模型发送的第一个命令是解释文本。我们没有提供任何进一步的指示或说明。由于图像中的信件部分没有签名,因此不清楚作者是谁以及信中提及了什么。

获得的结果如下:“图像包含两页手写文本。这是两页文本的转录:\n\n---\n\n**左页:**\n“我非常感谢你,我亲爱的安娜,如果可以的话,我很乐意再见到你,但我没有空闲的一天。我们正在等待你的查尔斯·罗梅隆斯叔叔,我第二天要去小威克斯莫尔,让一些怀特·摩尔待到周六。然后是周日和戴·吉本斯,周日亨利叔叔带我们俩去查尔斯顿。这真的很不礼貌,但我非常感谢你,感谢B.莱芬先生帮我洗衣服。我们应该有很多话要说,毫无疑问。我喜欢只给她发一次,但我不确定其他的。我很高兴她给你写了信。我喜欢和她交谈,只是谈论彼此。他们只是先生和夫人中的一个人。”\n\n---\n\n**右页:**\n“我们都非常满意地离开了。我想你很高兴收到你的来信。我刚刚给B.莱芬先生发了一份关于你的详细报告,其中描述了你的J.叔叔和J.夫人。我们昨晚都去看望了B.莱芬先生,在查尔斯顿看望了B.杜兰特先生。我不认为她对任何一方抱有太大期望。她很少见到J.先生和J.夫人。我很抱歉我想要更多。她很少见到J.先生和J.夫人。”\n\n---\n\n这是两页手写文本,很可能是一封信或一篇日记。内容似乎是一封私人信件,讨论了旅行、家庭和个人关系等各种话题。作者表达了对访问的感激和满意,并提到了特定的人物和事件。’]”。

转录中存在多处错误。模型提到有两页并指出了布局指示(这是不正确的,因为图像中只有一页)。例如,“查尔斯·罗默隆斯叔叔”的提及是原文“我们期待你的查尔斯叔叔明天来”的错误。另一个错误是重复出现“查尔斯顿”,而不是简·奥斯汀的故乡查尔顿。将信描述为一封私人信件,讨论与家庭相关的话题,这是准确的。

给 Qwen2-VL-2B 的下一个指令是“转录简·奥斯汀写的这封信中的文本”。添加了作者姓名,以避免进一步混淆。还指示看看模型在有更多上下文的情况下,是否能更好地转录信件。

“亲爱的安娜,\n\n我非常感谢你,我亲爱的。如果可以的话,我应该很高兴来,但我没有空闲的一天,如果可以的话,但我没有空闲的一天。我们都非常满意地离开了。我想你会很抱歉听到我姑妈刚刚给你寄了一份关于你的非常详细的报告给宾利先生,并附有你本人的描述。宾利先生今天早上离开了我们。女士们对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望,对他的事业的希望。”

在这些指示下,结果甚至更不准确,几乎没有任何意义。Qwen2-VL-2B 似乎对简·奥斯汀的书有很好的文学知识。事实上,它多次提及“宾利先生”,这是奥斯汀的《傲慢与偏见》中的一个角色,原信中甚至没有提到他。文本几乎不是图像中文本的转录,其中有不存在的句子,大量的重复,以及原始信件中元素的缺失。模型在最后也开始进入循环。从我进行的测试运行来看,很明显,上下文有时会影响 Qwen2-VL-2B 的思维,并导致主观的偏颇结果,这些结果更多地与它自身的知识核心有关,而不是与图像中实际存在的文本有关。

在第三次尝试分析和 OCR 处理简·奥斯汀的信件时,我们向 Qwen2-VL-2B 提出了以下提示命令:“解释简·奥斯汀写给她朋友安娜的这封信,信中提及她的故乡查顿和安娜的查尔斯叔叔,他们明天会见面。”

以下是针对这些指示的结果:“这封信是简·奥斯汀写给她朋友安娜的一封私人信件。这封信的日期是 1814 年 1 月 29 日,收件人是安娜,信中称其为“亲爱的安娜”。信中讨论了作者访问她的故乡查顿和她的叔叔查尔斯的计划,信中也提到了查尔斯。作者表达了对即将到来的访问的兴奋,并提到他们明天会见面。这封信还涉及作者对她的叔叔的感情,他被描述为“非常感激你”,作者表达了她对叔叔的爱。作者还提到她一直在写信给她的叔叔,告诉他她的计划,他一直在给她写信,告诉她叔叔的健康状况。作者还提到她一直在写信给她的叔叔,告诉他她的计划,他一直在给她写信,告诉她叔叔的健康状况。作者还提到她一直在写信给她的叔叔,告诉他她的计划,他一直在给她写信,告诉她叔叔的健康状况。作者还提到她一直在写信给她的叔叔,告诉他她的计划,他一直在给她写信,告诉她叔叔的健康状况。”

文本就这样持续了好几页……并没有多少意义。虽然描述的开头完全符合给定的指示,但模型随后开始在提到叔叔时陷入循环。最终,似乎过多的上下文往往会损害 Qwen2-VL-2B 处理和转录文本的能力。

最后一次尝试处理简·奥斯汀的信件时,模型收到了以下指令:“用几句话解释简·奥斯汀关于她的故乡查顿的这封信在说什么。”

结果仍然包含错误,如下:“简·奥斯汀于 1814 年写下的这封信,讨论了她的故乡查顿。她表达了对这个地方的爱和喜爱,提到了她的查尔斯·汤姆森叔叔和摩尔夫人姑姑。她还提到了正在拜访她的亨利叔叔,以及和她住在一起的表妹伊迪丝。信中还提到了她对表妹婚姻的感受,以及她自己对这种情况的感受。”

Qwen2-VL-2B 似乎无法正确转录“查尔斯叔叔”的名字,信中没有注明他的姓氏,只提到他“明天”会到(而不是“汤姆森”)。描述仍然比上次的结果更准确。信件的草书性质和缺少明确的签名显然让 Qwen2-VL-2B 难以处理。

分析法文文本:文森特·梵高的信

在本研究的下一个示例中,Florence-2-base 和 Qwen2-VL-2B 分析的文本是文森特·梵高写给他兄弟提奥的一封法文信的节选,写于他在阿尔勒期间,日期为 1888 年 11 月 21 日。

image/png

使用 Florence-2-base 分析文森特·梵高的信件

对文森特·梵高所写信件的首次分析是使用 Florence-2-base 进行的。使用“CAPTION”提示,它给出了一个诗意但不正确的陈述:“一封男人写给树的手写信”。虽然信中插入的图画中有一棵树,但它显然不是收件人。

使用“DETAILED_CAPTION COMMAND”的描述是:“图像显示了书中的一页,上面画着一个戴帽子的人和一个穿连衣裙的女人。页面上满是文字,图画细致逼真。男人戴着宽边帽和长外套,而女人穿着飘逸的长裙,领口很高。他们俩的脸上都带着坚定的表情,仿佛准备好迎接未来的任何挑战。”

信件和图画的描述完全不同。当我困惑地寻找图像中的女性时,我得出结论,Florence-2-base 可能将树误认为是穿着“飘逸的长裙,领口很高”的女性。Florence-2-base 给出的解释令人困惑:“他们俩的脸上都带着坚定的表情,仿佛准备好迎接未来的任何挑战”。我无法在“脸”上找到这样的表情,尤其是在树上。

“MORE_DETAILED_CAPTION”取得了稍微更成功的结果:“图像是一幅黑白素描,一个男人坐在长凳上,背景是一棵树。男人穿着条纹衬衫,戴着帽子,手里拿着一本书。他似乎在读书。这棵树有一个粗大的树干和扭曲的树枝,其中一个树枝上栖息着一只小鸟。背景是浅蓝色的天空,有几朵云。这幅素描采用速写式的、手绘风格,线条松散,有阴影。图像上的文字是用法语写的,似乎是某种手写体。图像的整体氛围似乎是平静而沉思的。”

然而,在 Florence-2-base OCR 处理的图像中,没有颜色,人物也没有坐在长凳上,也没有穿条纹衬衫或读书。但仍然正确地假设“素描采用速写式的、手绘风格,线条松散,有阴影”。此外,它提到“图像上的文字是用法语写的,似乎是某种手写体”,这是准确的。信件的总体含义也已由模型正确处理:“图像的整体氛围似乎是平静而沉思的”。

以下提示是 OCR 处理信件,并得到了以下结果

“是不是他读过西尔维斯特恩·尤·德拉克罗瓦的书,我的朋友,这篇文章在艺术语法中论述了颜色,等等。布兰克。请他们把这交给普斯特尔。我的视频没有这个。他们正在读——我想雷姆布兰特比他在我的研究中表现出来的要多。我最后一块帆布的甜美素描仍然吸引着我。我像太阳一样巨大的雪松,绿色的天空,云彩2023。永恒的紫色夏天,蓝色的树木,30号画布。”

正如我们所看到的,Florence-2-based 在转录法文文本(特别是手写文本)时显然遇到了问题。它生成的文本除了几个正确的词语(“颜色……草图……太阳……天空……蓝色”)之外,意义不大。阅读信件时,您可以理解 Florence-2-base 是如何处理信中词语的。虽然存在拼写错误,但艺术家德拉克洛瓦的名字几乎被准确转录。

使用 Qwen2-VL-2B 分析文森特·梵高的信件

在研究的第二阶段,Qwen2-VL-2B 分析了文森特·梵高的信件。这封手写法文文本也给该模型带来了一些困难,尤其是在准确转录法语方面。

给 Qwen2-VL-2B 的第一个任务指令是“转录图像中的文本”。这是转录结果:

“**文本:**\n\n他们是否读过德拉克洛瓦的书以及夏尔·布兰克艺术语法中关于色彩的文章?请代我问问他们,如果不是他们读的,就过来。我希望在伦勃朗身上投入更多精力,这在我研究中可能无法体现出来。\n\n我最后一块画布的甜蜜素描仍然有一种腼腆。像太阳一样巨大的刺猬。天空呈黄绿色,有粉色云彩。紫罗兰色的常青树侵犯了住宅和琥珀色的蓝色宝石,30 号画布。\n\n**转录:**\n\n“他们是否读过德拉克洛瓦的书,以及夏尔·布兰克艺术语法中关于色彩的文章?请代我问问他们,如果不是他们读的,就过来。我希望在我的研究中更多地学习伦勃朗。”\n\n我最后一张画的甜美素描仍然包含一丝羞涩。像太阳一样巨大的刺猬。天空是黄绿色的,带着玫瑰色的云彩。常青树是紫罗兰色的,害羞的和琥珀色的蓝色宝石,一幅 30 号的画布。”

与 Florence-2-base 相比,此转录在信件的 OCR 处理方面已显示出进展。Florence-2-base 主要理解并转录了某些特定单词,而 Qwen2-VL-2B 的结果则准确得多:德拉克洛瓦和伦勃朗的名字这次都被正确转录。尽管在识别某些单词(例如“mus…cèton… La bermam violat le demeure…”)和拼写错误(例如“jaun”代表“jaune”)方面存在问题,但句子已经更具意义,并且更具语境化。即使没有给出指令,模型也提供了此转录的英文翻译,有趣的是,它成功地理解了一些在法文版本中拼写错误的单词(例如“yellow”而不是法文版本中的“jaun”)。总体而言,Qwen2-VL-2B 的转录非常易读,并且更有意义,尽管仍有一些错误。

为了获得更准确的法文信件转录,我们要求模型“转录图像中的法文文本”,希望注明文本是法文会有所帮助。不幸的是,结果完全相同,没有任何改进。

在另一项任务中,我们接着要求 Qwen2-VL-2B 解释文本,对此模型没有提供太多额外上下文,只给出了以下结果:“["图像中的文本似乎是一封法文手写便笺。以下是文本的转录:\n\n—”。在这个简短的描述之后,模型给出了与前两次尝试中获得的完全相同的转录。

为了尝试让模型重新关注这封信的上下文,我们给它下达了“解释这封文森特·梵高的信”的指令。

以下是 Qwen2-VL-2B 的回答:“这封文森特·梵高的信是用法语写的,似乎是一张私人便条或信件。信件内容相当详细和内省,讨论了生活和艺术的各个方面。\n\n以下是这封信的细分:\n\n---\n\n文森特·梵高的信\n\n---\n\n主题:\n- 德拉克洛瓦的书\n- 艺术语法中关于色彩的文章\n- 艺术语法中关于色彩的文章\n\n---\n\n信件正文:\n\n---\n\n亲爱的[收件人],\n\n希望这封信能找到你安好。我今天写信给你是为了讨论最近我脑海中的一些事情。\n\n首先,我一直在读德拉克洛瓦的一本书,这本书非常有趣。艺术语法中关于色彩的文章也很有帮助。我一直在思考如何利用色彩在绘画中营造氛围或意境。这似乎是艺术中非常重要的一部分。\n\n其次,我一直在思考如何利用色彩传达情感。我一直在努力将这些知识应用到我自己的作品中,但我发现这相当具有挑战性。我常常觉得我没有做到位。\n\n最后,我一直在思考如何利用色彩在绘画中营造空间感。我一直在尝试将这个想法融入我的作品中,但我不知道它是否有效。\n\n我希望你能理解我的想法。我一直在寻找提高我艺术的方法,并感谢你的建议和指导。\n\n此致,\n\n文森特·梵高\n\n---\n\n签名:\n文森特·梵高\n\n---\n\n日期:\n[信件日期]\n\n---\n\n注意:\n这封信以私人和非正式的风格书写,法语和英语混合。信件讨论了艺术和色彩的各个方面,作者似乎在反思自己的经历和想法。”

在给予指示后,Qwen2-VL-2B 对梵高信件的 OCR 处理和后续分析得出了喜忧参半的结果。一方面,模型对信件提供了相当准确的描述、解释和上下文。另一方面,它似乎添加了许多额外的信息,这些信息甚至不在原始信件中,但似乎更能将其归类为一封信,并更好地解释内容:“信的正文……亲爱的[收件人]……希望这封信能找到你安好”等表述表明这是一封信,也是在这种上下文中常用的表达,但它们在原始图像中根本找不到。这导致模型将信件的收件人称为“收件人”(而不是其真正的收件人,文森特·梵高的兄弟提奥)。此外,模型似乎被主题混淆了,主题同时提到了“一本书”和艺术家“德拉克洛瓦”,在此转录中描述梵高正在写关于“德拉克洛瓦的一本书”。模型还错误地解释了文本中存在英文元素,而实际上它完全是法文的。尽管如此,它的最终解释并非不正确:“信件讨论了艺术和色彩的各个方面,作者似乎在反思自己的经历和想法”。

文森特·梵高信件 OCR 分析总结

正如我们从 Florence-2-base 和 Qwen2-VL-2B 提供的这两项分析中可以看到的,这些模型在处理和分析法文内容时遇到更多困难。如果 Qwen2-VL-2B 的结果更准确,仍然存在错误和误解。这个例子再次表明,如果 Qwen2-VL-2B 被指示和上下文淹没,其结果的准确性并不会提高多少。它似乎更难在给定提示的上下文下解释文本和图像,然后主要参考其先前获得的知识。Florence-2-base 的描述一开始极其模糊和无意义,但在指示进行更详细的描述后,其准确性有所提高。

分析一份印刷报纸:《纽约时报》头版,描述泰坦尼克号沉没事件

在这项 Florence-2-base 和 Qwen2-VL-2B OCR 处理和分析多种类型文档能力的比较研究中,我们获得了中世纪《时祷书》、美国宪法官方文本、简·奥斯汀手写英文信以及文森特·梵高手写法文信的描述。现在,我们将处理不同类型的文本图像,即 1912 年《纽约时报》的印刷头版,描述泰坦尼克号沉没事件。

image/png

使用 Florence-2-base 分析《纽约时报》头版

Florence-2-base 使用与之前示例相同的标题和指令分析了《纽约时报》的头版。

首先,使用“CAPTION”提示,模型给出了这个非常简短但准确的描述:“一份报纸头版,背景有一艘船的图片”。

“DETAILED_CAPTION”更具描述性,并且在模型从图像中处理的上下文中更加准确:“图像显示了 1912 年 4 月 12 日《纽约时报》的头版,中心有一张泰坦尼克号沉没的图片。头条新闻写着‘泰坦尼克号撞上冰山四小时后沉没’”。Florence-2-base 不仅识别出了报纸名称、日期以及描述的事件(也来自图片)。它还成功地将文本置于图像的上下文中。它成功地将图片和头条新闻都置于中心位置。

“MORE_DETAILED_CAPTION”提供了更长、更准确的结果:“图像是《纽约时报》的一份剪报。头条新闻写着‘泰坦尼克号撞上冰山四小时后沉没:866 人被卡帕西亚号救起,可能 1250 人丧生,伊士迈安全,阿斯特夫人可能安全,著名人物失踪’。头条新闻下方是泰坦尼克号沉没的黑白照片。照片显示泰坦尼克号在水中,烟囱冒出滚滚浓烟。图像左侧有两张较小的船只照片,一张是穿军装的男子,另一张是穿制服的女子。照片下方的文字是黑色文本。” 模型成功分析了文本内容,并正确转录了头条新闻和名称。它大部分准确描述了视觉内容,将泰坦尼克号的黑白照片置于“头条新闻下方”。然而,必须指出的是,图片中的船只尚未沉没(模型在说照片是泰坦尼克号沉没的照片后自相矛盾,因为它补充说它“显示泰坦尼克号在水中,烟囱冒出滚滚浓烟”)。Florence-2-base 分析的其他图像——它错误地将其识别为船只的照片——是“一个穿军装的男人”,那将是船长 E.J. 史密斯的照片,以及一张“一个穿制服的女人”的照片(实际上并未出现在我们的图像中)。

最后,我们要求 Florence-2-base 对报纸头版进行 OCR 处理,结果如下:

“所有新闻都适合印刷。”纽约,周二,1912 年 4 月 14 日——24 页,1 美分。泰坦尼克号撞上冰山四小时后沉没;866 人被卡帕西亚号救起,可能 1250 人丧生;伊士迈安全,阿斯特夫人可能安全,著名人物失踪。阿斯特上校和新娘,最大的客轮沉入海底,伊西多尔·施特劳斯夫妇,以及巴特少校在 220 米处。遵守海上规则,救援人员在那里迟到。妇女和儿童被送上救生艇,希望在卡帕西亚号上安全。4 小时后被救起,妇女和儿童优先。所有 8 小时的老式呼叫。卡帕西亚号在巡航以确保安全。希望所有 8 小时都被召唤。希望所有 10 小时都被召唤。所有 8 小时的老式呼叫。海上搜索其他人。供应商和莱文斯。老式卡帕西亚号被毁。老式最大避难所公司。避难所的呼唤。卡帕西亚号巡航公司。避难所的呼唤公司。避难所的呼唤公司。奥林匹亚号头版正在发送新奥林匹克竞赛委员会。丢失的泰坦尼克号被拖出贝尔法斯特港。最新报告正在发送。丢失的泰坦尼克号被拖出贝尔法斯特港。包括布鲁斯、伊萨伊、怀瑟夫人、H 先生和赫尔斯先生,以及一个不起眼的团队,开普雷斯,北卡罗来纳州,4 月 15 日,开普敦,拖出获救。包括布鲁斯、伊萨伊、怀瑟夫人和米瑟夫人,H & 赫里斯公司,比泰坦尼克号的沉没更令人惊讶,这艘船是同类中的第一艘。这艘船以其同类中的第一艘命名,它是同类中的最后一艘,也是其自身中的最后一艘。泰坦尼克号被命名为“被拖出贝尔法斯特港”。开普莱斯,北卡罗来纳州,周二,4 月 19 日,H. H. 和他的儿子,“贝尔法斯特港”。开普敦,是白鲸号船长中唯一一个两岁的。泰坦尼克号已被命名为开普 H。”

在大量各种类别的文本(标题、文章内容……)中,模型似乎在正确转录方面存在问题。虽然 Florence-2-base 提供的转录部分准确,但在区分大写和小写印刷内容方面存在一些问题。有些部分转录得非常完美,而另一些部分(例如“两岁的船长”)显然没有被模型正确处理,模型有时似乎在遇到困难时会陷入循环,无法理解页面的整体布局和上下文以及文章的部分内容。

总的来说,Florence-2-base 对《纽约时报》头版的分析结果准确,甚至比以前的结果更准确。这可能归因于几个原因:文本是印刷而非手写;英文语言;描述的沉没事件是世界闻名的;上下文更容易识别;报纸的布局更容易理解;文本上下文更清晰。

使用 Qwen2-VL-2B 分析《纽约时报》头版

我们也用 Qwen2-VL-2B 分析了《纽约时报》头版。以下是要求模型解释图片时获得的结果:

“图像是《纽约时报》1912 年 4 月 16 日头版的扫描件,报道了泰坦尼克号沉没事件。头条新闻写着‘泰坦尼克号撞上冰山四小时后沉没;866 人被卡帕西亚号救起,可能 1250 人丧生;伊士迈安全,阿斯特夫人可能安全,著名人物失踪。’\n\n文章详细描述了泰坦尼克号沉没前的事件,包括船只与冰山相撞以及随后卡帕西亚号的救援工作。文章提到有 866 人获救,其中大部分来自卡帕西亚号。文章还指出,估计有 1250 人丧生,阿斯特夫人是少数幸存者之一。\n\n文章还包括一份获救乘客的部分名单,其中包括阿斯特夫人、维德纳夫人、H.B. 哈里斯夫人等姓名,以及一个不完整的姓名,暗示可能是阿斯特夫人的姓名。文章还提到了获救乘客的部分名单,其中包括阿斯特夫人、维德纳夫人、H.B. 哈里斯夫人等姓名,以及一个不完整的姓名,暗示可能是阿斯特夫人的姓名。\n\n文章还包括一份获救乘客的部分名单,其中包括阿斯特夫人、维德纳夫人、H.B. 哈里斯夫人等姓名,以及一个不完整的姓名,暗示可能是阿斯特夫人的姓名。文章还提到了获救乘客的部分名单,其中包括阿斯特夫人、维德纳夫人、H.B. 哈里斯夫人等姓名,以及一个不完整的姓名,暗示可能是阿斯特夫人的姓名。\n\n文章还包括一份获救乘客的部分名单,其中包括阿斯特夫人、维德纳夫人、H.B. 哈里斯夫人等姓名,以及一个不完整的姓名,暗示可能是阿斯特夫人的姓名。”

虽然模型成功识别了报纸的上下文、头条新闻中描述的事件、日期和图像的性质(“扫描件”),但在描述失踪人员姓名时很快陷入循环。这似乎是因为它被文章中的大量信息所淹没。显然,Qwen2-VL-2B 具有 OCR 处理印刷报纸的能力,并且可以对图像进行良好而简要的描述和解释。尽管如此,对于《纽约时报》头版的分析,有趣的是 Florence-2-base 似乎产生了更准确、更深入、更长的结果,而 Qwen2-VL-2B 虽然成功地正确描述了它,但在分析整个文本时遇到了问题。

分析伊丽莎白二世女王的手写英文信

Florence-2-base 和 Qwen2-VL-2B 接下来的分析对象是一封手写信件,由未来的伊丽莎白二世女王于 1945 年 4 月 24 日撰写。

image/png

使用 Florence-2-base 分析伊丽莎白二世女王的信件

Florence-2-base 对手写信件的转录结果的准确性水平不一,这取决于给出的指令和要求的细节程度。

使用“CAPTION”提示(不包含任何其他指示)对信件的描述如下:“一封女人写给男人的手写信”。尽管 Florence-2-base 成功识别了信件的上下文和手写文本的特征,但“CAPTION”结果没有提供更多信息,也没有提及发件人、收件人或时期。此外,这封信并不是写给男人的,而是写给当时伊丽莎白公主的一位朋友的。

“DETAILED_CAPTION”提供了更多信息,但同时也伴随着错误:“图像显示了伊丽莎白二世女王写给她丈夫菲利普亲王的一封信,日期为 1945 年 4 月 24 日。信件写在一张顶部带有徽标的纸上。” 模型识别出了标题设计,在这种情况下是白金汉宫(它将其定义为徽标)。日期即使是手写也绝对准确。然而,它犯了一个错误,将收件人误称为女王未来的丈夫菲利普亲王。Florence-2-base 似乎在用自己的知识误解这封信时犯了错误。

“MORE_DETAILED_CAPTION”提供了更长、更完整的描述,以及一个简短的转录。结果已经更准确了:“图像是 1945 年白金汉宫一封手写信件的照片。信件寄给玛丽,日期为 1945 年 4 月 24 日。信件用黑色墨水写在泛黄的纸上,顶部有一个红色印章。纸张看起来很旧很磨损,边缘有一些折痕和褶皱。\n\n信件由玛丽签署,页面底部的文字表明。文字写道:‘亲爱的玛丽,收到你祝我生日快乐的信,我非常高兴。非常感谢你想到我。得知你正在病假,我很难过,但我希望你现在感觉好些。这真是一年中的好时候。我们天气很好,而且我们刚刚在 ATS 完成了机械课程,也就是 ATS。’” 这个描述中的主要错误是发件人的身份:事实上,模型成功地发现它是从白金汉宫寄出的,但没有提及伊丽莎白二世女王,Florence-2-base 将收件人和发件人识别为同一个人——玛丽。这可能是由于用于此示例的信件部分未签名,导致模型自行找到了发件人:“信件寄给玛丽……信件由玛丽签署”。尽管如此,除了 minor 错误和缺失部分(在“这是一年中的好时候”和“我们天气很好”之间,以及原信中“我刚刚完成机械课程”到 Florence-2-base 转录中“而且我们可能刚刚完成机械课程”的意义变化)之外,转录总体上是相当准确的。模型最后也陷入了“ATS 也就是 ATS”的循环。

OCR 处理指令产生了以下结果:“1945 年 4 月 24 日。白金汉宫亲爱的玛丽,我非常高兴收到你祝我生日快乐的来信。非常感谢你想到我。很抱歉听到你正在病假,但我真的希望你现在感觉好些。这真是一年中的好时候,可以请假,而且天气这么好,我们不妨好好利用它。我刚刚在 ATS 完成了机械课程,那就是 g。”

拼写和单词之间缺少空格(这可能是由于手写造成的)存在许多问题。单词似乎已被处理,但模型未能正确理解。尽管如此,即使不如“MORE_DETAILED_CAPTION”那样有效,转录仍然可读且总体准确。结果在手写信件的示例中显然准确性较低。

使用 Qwen2-VL-2B 分析伊丽莎白二世女王的信件

总的来说,Qwen2-VL-2B 对伊丽莎白二世女王信件的分析结果是积极的。即便如此,在解读和转录方面仍存在不准确之处。这似乎是因为 Qwen2-VL-2B 在缺乏解释图像或文本的信息时,会尝试根据其先前获取的知识以及版式和上下文来提供答案。

由于这个例子是一封信件,有趣的是,该模型无缘无故地添加了正式信件中常用的表达(如“Yours sincerely”等),即使这些表达并未出现在所处理信件的部分中。这似乎表明,Qwen2-VL-2B 具有文化偏见,会自动将信件转录成准确的正式信件格式(通常在信件中可见),而不是精确转录图像中存在的内容。

给 Qwen2-VL-2B 的第一个指令是“转录这封信中的文本”,该模型成功地提供了非常准确的文本转录。然而,它也添加了信件中不存在的信息,同时未能提供更多关于上下文的指示。

["亲爱的玛丽,\n\n我非常高兴收到您对我生日的祝福信。非常感谢您惦记着我。\n\n听说您在病假中,我感到很抱歉,但我真诚地希望您现在感觉好些了。现在确实是休假的好时节,既然天气这么好,我们不妨好好利用一下。我刚刚在 A.T.S. 完成了一个机械课程,我将在未来几周内开始从事这方面的工作。\n\n您真诚的,\n\n[您的姓名]"]

正如我们在此描述中看到的那样,Qwen2-VL-2B 添加了文本中缺失的元素:它甚至提到了一个匿名签名为“您的姓名”的发件人。

第二个提示要求模型“解释图像”:“该图像是一封手写信件,日期为 1945 年 4 月 24 日,来自白金汉宫。这封信写给玛丽,包含了一条个人信息,表达了对她生日祝福的感谢,并表达了对玛丽健康的担忧。信中还提到写信人感觉好些了,并建议玛丽可以利用好天气。信件由发件人签名,顶部有白金汉宫徽章。”

对这封信的描述完全准确,无论是所提及的元素,还是识别纸张上指示的位置(“顶部的白金汉宫徽章”)或日期。然而,它犯了与 Florence-2-base 相同的错误。尽管文本及其上下文得到了理解,但发件人(伊丽莎白二世女王)的身份并未被找到。Qwen2-VL-2B 对这封信件给出了正确的解读,即使它再次混淆了发件人和收件人:“对玛丽健康的担忧”随后确实被重新解释为“写信人感觉好些了”。

为了促使模型对伊丽莎白二世女王的信件提供更准确、更具上下文的描述,我们向 Qwen2-VL-2B 提供了两个明确说明发件人身份的提示,要求其解释和转录信件。以下是这两种情况下获得的结果:

使用“解释伊丽莎白二世女王写的这封信”的提示,我们得到了如下结果:“这封信是伊丽莎白二世女王于 1945 年 4 月 24 日写的一封手写便条。信件寄给玛丽,信中未指明玛丽的身份。信件以问候开头,表达了女王收到玛丽生日祝福信的喜悦。她感谢玛丽惦记着她,并提到听说玛丽在病假中感到抱歉,但她希望玛丽现在感觉好些了。女王还提到,现在是休假的好时节,并建议他们可以利用好天气。她提到她刚刚在 A.T.S. 完成了一个机械课程,这是皇家空军中为女性提供的培训项目。”

使用“转录伊丽莎白二世女王写的这封信”的提示,我们得到了以下结果:“亲爱的玛丽,\n\n我非常高兴收到您对我生日的祝福信。非常感谢您惦记着我。\n\n听说您在病假中,我感到很抱歉,但我真诚地希望您现在感觉好些了。现在确实是休假的好时节,既然天气这么好,我们不妨好好利用一下。我刚刚在 A.T.S. 完成了一个机械课程,我觉得它非常有趣。\n\n您真诚的,\n伊丽莎白二世女王”

Qwen2-VL-2B 在这两个提示下给出的描述和转录结果几乎完全准确。有趣的是,模型再次认为有必要在转录中添加“Yours sincerely”以及“Queen Elizabeth II”的签名,即使它们并未出现在我们分析的信件摘录中。在两种情况下,发件人的身份都得到了准确识别。

总结这项对未来伊丽莎白二世女王信件的研究,我们可以说,即使存在一些打字和拼写错误,以及识别发件人(无论是使用 Florence-2-base 还是 Qwen2-VL-2B)的困难,但在转录文本、设置上下文以及找到正确的时期和地点(信件发送的时间和地点)方面,总体结果仍然准确——尤其是在向模型提供更多上下文和指令时。

分析美国总统富兰克林·D·罗斯福的两封信:手写和打印文件的比较研究

接下来用 Florence-2-base 和 Qwen2-VL-2B 分析的包含文本的图像是两封信,都由美国总统富兰克林·D·罗斯福所写。第一封寄给温斯顿·丘吉尔的信是手写的,将由 Florence-2-base 进行分析。第二封寄给阿尔伯特·爱因斯坦博士的信是打印的,将由 Qwen2-VL-2B 进行分析。比较两种模型在不同类型书面文件上的表现将会很有趣。

Florence-2-base 对富兰克林·D·罗斯福致温斯顿·丘吉尔信件的分析

image/jpeg

Florence-2-base 对罗斯福总统致温斯顿·丘吉尔信件的分析结果好坏参半。这可能是由于转录一封手写且不太易读的信件时遇到的困难造成的。正如我们在过去的例子中所看到的,研究模型在缺乏上下文时如何适应也很有趣——这导致它根据自己的知识进行解释(通常会带来混淆和不准确)。

第一个错误是在首次尝试描述文本时发现的。“CAPTION”提示导致了以下描述:“一封来自美国总统约翰·F·肯尼迪的手写信。”如果手写信的上下文是正确的,并且识别其发件人为美国总统也是正确的,但模型错误地将其识别为“john f Kennedy”(大小写字母混用,标点符号有问题)。

“DETAILED_CAPTION”命令的结果部分更准确,部分更混乱:“图像显示了一封富兰克林·D·罗斯福总统写给他妻子罗斯福夫人的手写信。这封信写在一张纸上,用黑色墨水笔书写,文字工整流畅。纸张因年代久远而略微泛黄,页面底部有签名。”该模型准确地识别出罗斯福总统是发件人,并对图像的描述和信件的布局进行了正确的观察。然而,它错误地将收件人识别为“罗斯福夫人”。

“MORE_DETAILED_CAPTION”的结果似乎是基于 Florence-2-base 的错误假设,导致了冗长但意义不大的描述:“图像是美国总统约翰·F·肯尼迪的一封手写信的照片。这封信寄往白宫,日期为 1864 年 6 月 20 日。纸张因年代久远而泛黄,字迹清晰易读。\n\n这封信是用黑色墨水写在白色背景上的,由肯尼迪在右下角签名。文本内容是:‘亲爱的肯尼迪,我将给予你支持。他确实在帮助我们支持我们的努力,我们永远不会忘记。我感谢你的支持和支持。我非常感谢我们对你的支持。我将永远在你身边。’\n\n信件底部有肯尼迪的签名,表明这是一封亲笔信。”该模型在处理和分析此文本时犯了如此多的错误,以至于很难知道从何说起。首先,Florence-2-base 再次错误地将发件人识别为约翰·F·肯尼迪总统。但这次,它还错误地将信件的收件人识别为肯尼迪本人:“亲爱的肯尼迪,我将给予你支持……我将永远在你身边。”模型指出信件是寄往白宫的(尽管实际上是从那里发出的)。它还将文本的日期错误地定为“1864 年 6 月 20 日”。

OCR提示指令的结果如下:'THE WHITE HOUSETHE WHITE HOUSEDen Chnchill.11Middll Wllkis will gour youThi - H. is Truly helping Storpholitis and wer here.I knad thie vere ypplis is to gompofth as it dess B is.Sail on, oll sht of State.Sait an oh Womom wolong and post.Homenuty with all it is fear.I will all the hope of futine yearsIs hanging brattless on thy faltas zer youm"。尽管文本是英文的,但模型在破译、理解和转录手写信件方面遇到了困难。显然,这可能是因为这封信不仅是手写的,而且相当难以阅读(客观上比本研究中之前的例子更难)。使用 OCR 提示获得的转录毫无意义。

Qwen2-VL-2B 对富兰克林·D·罗斯福致阿尔伯特·爱因斯坦信件的分析

image/png

Qwen2-VL-2B 为本文分析的第二封富兰克林·罗斯福总统的信件是一种不同类型的信件:它不是手写文本,而是一份打印文件,并且收件人是阿尔伯特·爱因斯坦博士。显然,对于打印信件,结果要准确得多,因为任何模型(无论是 Florence-2-base 还是 Qwen2-VL-2B,正如我们在之前的例子中看到的)处理打印信件总是容易得多。对于这封信,Qwen2-VL-2B 仍然犯了一些错误,我们将看到。

给 Qwen2-VL-2B 的第一个指令是“解释图像中的文本”。以下是它给出的描述:“图像是一封爱因斯坦博士写给教授的扫描信件,日期为 1939 年 10 月 19 日。这封信的收件人未指明,语气正式。信件以问候和请求收件人提供感谢信开头。信件提到了收件人最近的信件和随附数据的重要性。信件还提到了标准局以及陆军和海军选定的代表,以彻底调查铀的可能性。收件人对这封信表示感谢,并表达了主题的重要性。信件以请求收件人接受这封信并表示诚挚感谢结束。”

对于第一次分析,Qwen2-VL-2B 成功地指出了准确的日期。对信件的描述表明它理解了文本的含义。但是,它犯了一个大错误,将发件人识别为阿尔伯特·爱因斯坦本人,而不是收件人。这导致了关于“未指明的收件人”是谁的困惑。

Qwen2-VL-2B 对信件的转录几乎完全准确,这表明使用打印文件进行 OCR 处理的优势:“白宫\n华盛顿\n\n1939 年 10 月 19 日\n\n我亲爱的教授:\n\n我想感谢您最近的来信以及其中最有趣和重要的附件。\n\n我发现这些数据如此重要,以至于我召集了一个委员会,由标准局负责人以及陆军和海军选定的代表组成,以彻底调查您关于铀元素的建议的可能性。\n\n我很高兴地说,萨克斯博士将与该委员会合作,我觉得这是处理该主题最实用有效的方法。\n\n请接受我真诚的感谢。\n\n您真诚的,\n\n阿尔伯特·爱因斯坦博士,\n\nOld Grove Road,\n\nNassau Point,\n\nPeconic,长岛,\n\n纽约。”

这次转录中犯的错误再次是错误地将阿尔伯特·爱因斯坦解读为发件人。事实上,模型甚至将他的名字作为签名。然而,信件中其余内容都是准确的。

Qwen2-VL-2B 接到的下一个指令是“解释这封来自美国总统罗斯福致阿尔伯特·爱因斯坦教授的信件”。对于这个特定案例,附加的指示似乎帮助模型对文档进行了语境化。它成功地识别了发件人和收件人,甚至准确地描述了其内容。

“这封信是罗斯福总统向著名物理学家和诺贝尔奖获得者阿尔伯特·爱因斯坦发出的正式请求,希望他能在核物理领域提供专业知识。信件日期为1939年10月19日,收件人为住在纽约的爱因斯坦教授。总统对爱因斯坦最近的来信表示感谢,并表达了希望爱因斯坦教授参与一个委员会,调查利用铀进行核能的可能性。总统还请求爱因斯坦教授与该委员会合作。信件以总统的签名和‘您真诚的’字样结尾。”

对罗斯福总统的两封信的分析,一封是英文手写并由 Florence-2-base 分析,另一封是英文打印并由 Qwen2-VL-2B 分析,得出以下结论:对打印文件的分析结果在文本内容方面要准确得多。然而,布局的模糊不清或差异可能会导致识别信件中关键元素(收件人、发件人、地点、日期等)时出错。此外,模型的先验知识在分析文档时可能会导致误解。

视觉艺术中文字的分析:让-米歇尔·巴斯奎特作品《公证人》的研究

在分析和处理了包含大部分文本元素(如信件、报纸、书籍等)的图像后,我们将研究一个仅包含少量文本元素的图像(本例中为一幅画)。这件艺术品是让-米歇尔·巴斯奎特创作的一幅画作,题为《公证人》,创作于1983年,在普林斯顿大学艺术博物馆展出。

image/jpeg

这幅画用 Florence-2-base 和 Qwen2-VL-2B 等模型进行处理很有趣,因为文本元素散布在整个艺术品中。

Florence-2-base 对让-米歇尔·巴斯奎特《公证人》中文字的分析

使用 Florence-2-base,用“CAPTION”命令分析巴斯奎特画作的结果如下:“jean-michel basquiat, untitled, 1982”。模型成功地识别出艺术家的名字,尽管没有找到作品的名称(但巴斯奎特的许多画作都题为“untitled”,所以这不是一个大错误)。日期也几乎正确——相差一年。

“DETAILED_CAPTION”给出了以下结果:“图像显示了让-米歇尔·巴斯奎特 1982 年的画作《无题》,它由充满活力的色彩和文字混合在黑色背景上组成。这幅画由抽象的形状和线条构成,创造出独特而迷人的构图。”正如我们所见,该模型仍然基于其对艺术家先前的知识以及与之前描述相同的假设(其中包括画作的标题)来提供答案。美学描述本身简洁但相当准确。

有趣的是,“MORE_DETAILED_CAPTION”提供了更长的画作描述,但省略了艺术家、艺术品和日期的名称:“图像是各种艺术品和文本的拼贴画。背景是黑色,主要焦点是一幅大型抽象画,包含各种颜色和形状。这幅画由不同的元素组成,如线条、形状和线条,营造出一种混乱的构图。\n\n在画作的中央,有一个大头长颈的人物,穿着红黑条纹衬衫。这个人物似乎站在一个大窗户前,窗外可以看到城市天际线。图像的左侧有几个较小的人物,包括一个骷髅头男人和一个戴红帽子的女人,他们都在仰望天空。这些人物被各种符号和文本包围着,这些符号和文本似乎与城市有关,例如一个红圈、一个黑圈和一个写着‘PLUTO’的白圈。\n\n在这张图片的右侧,人物双手交叉站立,头微微倾斜,仿佛在凝视远方。画作上的文字写着‘这不是为了所有债务,公共债务和公共债务。’\n\n画作中还散布着一些较小的插图和不同颜色和大小的文本,包括红色、黄色、绿色、蓝色和黑色。整体效果是混乱和破坏,带有一种不安感。”

如果说这里描述的一些元素实际上并不存在(例如,“戴红帽子的女人”),那么其他一些元素则是完全准确的,例如“大头长颈的人物”、圆圈以及“PLUTO”字样和“This not all debts”短语。这表明模型成功地部分理解了这幅艺术品。

通过 OCR 任务提示转录画作中存在的所有书面元素,Florence-2-base 给出了以下结果:“NOTARYCASCODIMARITPLUTOLOFLEASDVMARISSTUDY OF THE150.MALE TORSOFLUTOLUTO.150DEHYDRATHSICKLESDEHYORAMATTOCKS0FEDTHIS NITEFOR ALL DEBTS4LEECHESSALTPUBLIC+PRIVATEG48LEECHESBUCKLE,ROMANITES47.LEECCHES.P504 BRONZER”。

虽然这些词语在没有空格的情况下放在同一句话中并没有意义,但模型确实成功地找到、破译并转录了散布在艺术品中的所有书面词语和字母。这表明模型可能没有单独理解每个词语,而是将整个系列字母一起转录了。

Qwen2-VL-2B 对让-米歇尔·巴斯奎特《公证人》中文字的分析

巴斯奎特的《公证人》随后也由 Qwen2-VL-2B 进行处理。

在第一次尝试处理此图像中的文本时,我们要求模型“解释图像和图像中的文本”,结果如下:“图像是一幅大型抽象画,具有各种色彩鲜艳和混乱的元素。画作分为四个部分,每个部分包含不同类型的文本和符号。以下是图像中元素的详细描述:\n\n1. **左上角部分:**\n - **文本:**“NOTARY CASCO”\n - **符号:**一个红色和白色的圆圈,带有黑色轮廓,类似于公证印章。\n - **背景:**浅蓝色或绿色的背景,带有一些白色和黑色线条。\n\n2. **右上角部分:**\n - **文本:**“PLUTO”\n - **符号:**一个黑色和白色的行星图像,周围有一个红色和白色的圆圈。\n - **背景:**深蓝色或黑色的背景,带有一些白色和黑色线条。\n\n3. **中左部分:**\n - **文本:**“DV MARIS”\n - **符号:**一个黑色和白色的骷髅头图像,带有一个红色和白色的嘴巴。\n - **背景:**浅蓝色或绿色的背景,带有一些白色和黑色线条。\n\n4. **中右部分:**\n - **文本:**“FLEAS”\n - **符号:**一个黑色和白色的跳蚤图像。\n - **背景:**深蓝色或黑色的背景,带有一些白色和黑色线条。\n\n5. **左下角部分:**\n - **文本:**“SALT”\n - **符号:**一个红色和白色的圆圈,带有黑色轮廓。\n - **背景:**浅蓝色或绿色的背景,带有一些白色和黑色线条。\n\n6. **右下角部分:**\n - **文本:**“DEHYDRATED”\n - **符号:**一个黑色和白色的人形图像,带有一个红色和白色的嘴巴。\n - **背景:**深蓝色或黑色的背景,带有一些白色和黑色线条。\n\n这幅画似乎是各种符号和文本的复杂抽象表现,可能暗示着神话、自然和人体解剖学的主题。不同颜色和符号的使用营造出一种混乱和复杂的感觉,使得难以辨别任何清晰的信息或叙事。整体效果是一件视觉刺激且引人深思的艺术品。”

与 Florence-2-base 不同,Qwen2-VL-2B 未能识别艺术家的名字,也未能尝试识别画作。但它在转录画作中所有词语方面做得很好,同时对其进行了分类和组织,还将其定位在画作的空间中,并区分和描述了文本、符号等……这幅艺术作品中文字的转录非常成功,因为这些词语得到了充分识别、理解和区分。

在第二次转录尝试中,模型被要求“转录图像中的文本”:“图像中的文本是:\n\n- **Notary Casco**\n- **PLUTO**\n- **SALT**\n- **DEHYDRATED**\n- **SICKLES MATTOCKS**\n- **46. LEECHES**\n- **47. LEECHES**\n- **SITES**\n- **THIS NOTE FOR ALL DEBTS PUBLIC+PRIVATE**”

正如我们所见,Qwen2-VL-2B 提供了非常简短但准确的所有书面词语的描述,但这次没有在图像中定位它们或描述其他元素(符号、形状等)。

在第三个提示中,我们要求 Qwen2-VL-2B“分析让-米歇尔·巴斯奎特这幅画中文字的含义”:“让-米歇尔·巴斯奎特的画作,题为《男性躯干研究》,是一部复杂而抽象的作品,结合了艺术和文本的各种元素。以下是对画作中文字的详细分析:\n\n1. **公证员卡斯科 (Notary Casco)**:这段文字似乎是指公证员或公证处。它可能暗示公证员在验证文件或画作的法律方面所扮演的角色。\n\n2. **镰刀镐 (SICKLES MATTOCKS)**:这段文字很可能是指艺术家的签名或画作中出现的签名。这可能是将艺术家名字融入艺术品的一种有趣或艺术的方式。\n\n3. **脱水 (DEHYDRATED)**:这段文字很可能是指艺术家的签名或画作中出现的签名。这可能是将艺术家名字融入艺术品的一种有趣或艺术的方式。\n\n4. **盐 (SALT)**:这段文字似乎是指艺术家的签名或画作中出现的签名。这可能是将艺术家名字融入艺术品的一种有趣或艺术的方式。\n\n5. **冥王星 (PLUTO)**:这段文字似乎是指艺术家的签名或画作中出现的签名。这可能是将艺术家名字融入艺术品的一种有趣或艺术的方式。\n\n6. **脱水 (DEHYDRATED)**:这段文字似乎是指艺术家的签名或画作中出现的签名。这可能是将艺术家名字融入艺术品的一种有趣或艺术的方式。\n\n7. **镰刀镐 (SICKLES MATTOCKS)**:这段文字似乎是指艺术家的签名或画作中出现的签名。这可能是将艺术家名字融入艺术品的一种有趣或艺术的方式。\n\n8. **盐 (SALT)**:这段文字似乎是指艺术家的签名或画作中出现的签名。这可能是将艺术家名字融入艺术品的一种有趣或艺术的方式。\n\n9”(等等)

给出的答案很长,最后陷入了循环,并没有真正解释文本背后的含义,只是为每个单词给出了相同的简短随机解释。有趣的是,在指示这幅画是让-米歇尔·巴斯奎特的作品后,Qwen2-VL-2B 也试图识别画作的名称。在这种情况下,它指出是“男性躯干研究”(这是巴斯奎特的另一幅画作的名称)。这再次表明模型能够从其先前的知识中找到信息来解释它没有太多上下文的新内容。

为了促使模型尝试分析文本和绘画的含义,我们向它发送了以下问题和指示:“让-米歇尔·巴斯奎特这幅图像中文字的含义是什么?这与它的街头艺术风格有关吗?请解释。”

Qwen2-VL-2B 给出的答案表面准确,但包含误解且不够深入:“让-米歇尔·巴斯奎特作品中图像中的文本是各种短语和符号的混合,在艺术品的语境中可能没有直接的意义。然而,很明显文本旨在由观看者阅读和解释。文本似乎是单词和符号的混合,可能与艺术品的主题和信息有关。巴斯奎特的街头艺术风格经常融入日常语言和街头俚语元素,这些元素可以用来传达信息或表达情感。”

可口可乐广告中的文字分析

本 AI OCR 处理研究中将分析的最后一张图像是最近的:这是一个由美国品牌可口可乐在 2013 年制作的广告。将这张图像与我们的其他例子进行比较很有趣,因为它具有对比鲜明的颜色和简短、大字体文本元素,因此更容易理解。

image/jpeg

Florence-2-base 对可口可乐广告的分析

广告的第一次分析是使用 Florence-2-base 进行的。

“CAPTION”命令得出了以下结果:“一群人在田野上行走,旁边有可口可乐的标志。”可以看出,模型处理和理解文本要容易得多,因为它更清晰易辨。

“DETAILED_CAPTION”的结果如下:“图像显示一群人站在草地上,背景是树木。图像的左侧有文字,上面写着‘可口可乐——帮助您最喜欢的公园赢得 10 万美元的娱乐补助金’。”转录完全成功且完整。

通过“MORE_DETAILED_CAPTION”,我们得到了以下描述:“图像显示四个人,两名女性和两名儿童,在草地上行走。左边的女性穿着一件带有花卉图案的白色连衣裙,怀里抱着孩子。右边的孩子穿着蓝色短裤和一件印有数字 1 的白色 T 恤。他们都微笑着,看起来很高兴。背景显示树木和蓝天。图像的左上角有一个红色横幅,上面有可口可乐的标志和文字,上面写着‘帮助您最喜欢的公园赢得 10 万美元的娱乐补助金。立即投票’。”

Florence-2-base 不仅正确处理和理解了文本和视觉内容,还描述了图像想要传达的印象(“他们都微笑着,看起来很高兴”)。

OCR 任务提示取得了成功的结果,尽管单词之间没有正确的间隔:“CocaColaHelp yourfavorite parkwin a $100,000recreation grant.VOTE NOW”。

Qwen2-VL-2B 对可口可乐广告的分析

Qwen2-VL-2B 对可口可乐广告的分析也取得了巨大成功,这表明该模型能够轻松处理内容更简单、字母更大、易于阅读的图像。

给模型的第一个指令是“转录图像中的文本”,结果是:“可口可乐 帮助您最喜欢的公园赢得 10 万美元的娱乐补助金。立即投票。”第二个指令是“解释图像中的文本”,模型给出了对广告的理解:“该图像正在宣传一项可口可乐活动,旨在帮助一个最受欢迎的公园赢得 10 万美元的娱乐补助金。文本鼓励观众投票选出他们最喜欢的公园。”第三个指令“解释图像”则产生了一个有趣且准确的分析:“该图像是可口可乐的广告,宣传一项帮助最受欢迎的公园赢得 10 万美元娱乐补助金的竞赛。图像中的文本写着“帮助您最喜欢的公园赢得 10 万美元的娱乐补助金。”在此下方,有一个行动号召,上面写着“立即投票。”图像背景以红绿配色方案为主,一名女性和两名儿童在草地上行走。可口可乐标志醒目地显示在图像的左上角。”

Qwen2-VL-2B 不仅成功地转录和处理了广告,它甚至承认了可口可乐标志在图像中的突出显示,行动号召,并清楚地说明这是一个广告及其目的。这不仅表明 Qwen2-VL-2B 对更简单的图像和文本内容有很好的理解,还突出了它理解广告和营销策略的能力。

结论

本研究旨在分析 Florence-2-base 和 Qwen2-VL-2B 等 VLM 模型如何对包含文本的图像进行 OCR 处理。为此,我们处理了各种类型的文档,如报纸文章、信件(手写和打印)、艺术品和广告。

我们可以从这项研究中得出以下结论。首先,很明显,Florence-2-base 和 Qwen2-VL-2B 等模型都具有处理和分析书面文本的高超能力。这可以从我们看到的例子中清楚地看出,特别是关于布局简单(最好是英文)的打印文档。话虽如此,当图像中的文本难以阅读(例如手写)、上下文较少或不是英语时,这两种模型在处理图像中的文本时都遇到了困难。本研究中的两个例子是拉丁语和法语。在这两种情况下,模型(尤其是 Florence-2-based)在处理和分析文本时都遇到了问题。当涉及上下文时,即使在指令中给出,两种模型似乎都基于其“个人”知识进行分析,这导致对图像中原始文本的误解。例如,在研究未来伊丽莎白二世女王的信件时,有趣的是,在处理文本时,模型将其描述为写给她丈夫菲利普亲王的信件(即使事实并非如此,当时他们甚至还没有结婚)。此外,在处理富兰克林·罗斯福总统的信件时,Florence-2-base 两次犯了同样的错误,将信件解释为约翰·F·肯尼迪总统所写——可能是根据顶部的白宫标题和信件的风格/时期进行假设。本研究中遇到的另一个问题是两种模型都难以理解不同类型信件的布局。两种模型都错误地识别了发件人,有时与收件人混淆,反之亦然。Florence-2-base 和 Qwen2-VL-2B 都被标题的位置、缺乏签名或不同国家和历史时期布局的变化所困扰。吸引我们注意的另一个结果是,当给出大量指令、上下文元素以及关于文本和图像的一般信息时,结果并没有更准确,反而恰恰相反:模型似乎被过多的信息淹没,并根据所说内容对文本做出错误的假设。例如,在分析一封没有发件人指示的手写信件时,Qwen2-VL-2B 在收到信件由简·奥斯汀所写的信息后修改了原始文本的内容。然后它添加了对“宾利先生”的几次提及,甚至在这封特定信件中都没有提到,而是指简·奥斯汀《傲慢与偏见》中的一个角色。

即使结果存在这些缺陷,毫无疑问,Florence-2-base 和 Qwen2-VL-2B 等模型进行 OCR 识别和处理是有效的,尽管结果高度依赖于图像和给定的上下文。以美国宪法为例,Qwen2-VL-2B 能够根据摘录提供文本的精确转录,并完美地进行上下文语境化,这令人印象深刻。

更多微调和训练,使模型适应不同的布局,可能会帮助获得更好的结果。此外,还可以提高模型处理更多语言文本的能力。但就目前而言,这两种模型都成功地提供了大量书面文档的转录。

话虽如此,将 Florence-2-base 和 Qwen2-VL-2B 的结果与更新、高效的 VLM 模型(例如 Rhymes AI Aria 和 Mistral Pixtral-12B)进行比较将会很有趣。目前在这项研究中使用模型的方法,即使用 Google Colab 中包含的免费 GPU,使得很难对 Aria 和 Pixtral 进行相同的文本和视觉分析。然而,使用最新发布的多模态模型 Deepseek Janus-1.3B 进行类似的艺术和文本分析可能会很有趣——这将是我下一篇文章的主题。

询问

Florence-2-base 和 Qwen2-VL-2B 等 VLM 模型如何处理和理解图像中的文本?

我们用于这项研究的模型通过不同的提示和任务指令来处理和理解图像中的文本。对于 Florence-2-base,文本分析是通过“CAPTION”、“DETAILED_CAPTION”、“MORE_DETAILED_CAPTION”和“OCR”命令完成的。对于 Qwen2-VL-2B,转录过程是通过“转录图像中的文本”和“解释图像中的文本”等指令完成的。在某些情况下,还添加了特定信息以向模型提供更多上下文。

哪些转录结果更好?原因是什么?

无论是 Florence-2-base 还是 Qwen2-VL-2B,最好的转录结果都基于更易于阅读、理解和处理的图像。例如,可口可乐广告获得了整个研究中最好的结果,因为它是一幅非常清晰醒目的图像,带有大型打印对比字母。此外,打印文档,如《纽约时报》头版文章和罗斯福总统致阿尔伯特·爱因斯坦博士的打印信件,获得了最准确的转录。众所周知的图像,例如包含美国宪法文本的图像,也得到了两种模型更好的转录。

本研究中遇到的主要困难是什么?

本研究中遇到的主要困难如下:使用的语言导致不同文本之间结果差异很大,因为两种模型都难以转录法语和拉丁语文本,但在英语文本方面表现非常好。另一个问题是图像中文本的类型:总的来说,手写文本比打印文本更难被模型处理。此外,不同图像之间的布局差异也导致了结果中的误解和混淆。而且,每个模型“个人”的自有知识偏离了一些转录的结果,导致了理解上的错误。最后,在任务指令中添加过多的上下文被证明会导致结果不准确。

哪些类型的文本最容易处理?哪些最困难?

最容易处理的文本类型是模型能够更清晰地进行 OCR 处理和分析的文本。布局清晰简单的打印文本更容易被转录。相反,手写文本,特别是草书,更难以理解,无论是 Florence-2-base 还是 Qwen2-VL-2B。缺乏标准布局以及文本中缺乏上下文信息也导致了许多困难。

如何改进 AI 的 OCR 转录?

为了改进 AI 的 OCR 处理和转录,应该对模型进行更多的微调和训练,使其习惯于各种布局、打印和手写文本类型,并熟悉更多语言。

参考文献。

  1. 时辰书。拉丁语和法语,羊皮纸彩绘手稿。法国西部,布列塔尼(南特?),约 1450 年。
  2. 美利坚合众国宪法, 1787
  3. 简·奥斯汀,《致侄女安娜·勒弗罗伊的信》,1814 年 11 月 29 日
  4. 文森特·梵高,《致提奥·梵高的信》,阿尔勒,1888 年 11 月 21 日,梵高信件 (https://www.vangoghletters.org/vg/letters/let722/letter.html#original)
  5. 泰坦尼克号撞上冰山四小时后沉没》,摘自《纽约时报》,1912 年 4 月 16 日,维基共享资源,(https://upload.wikimedia.org/wikipedia/commons/0/04/Titanic-NYT.jpg)
  6. 富兰克林·D·罗斯福,《致温斯顿·丘吉尔的信》,1941 年 1 月 20 日,美国国会图书馆 (https://www.loc.gov/exhibits/churchill/interactive/_html/wc0112.html)
  7. 富兰克林·D·罗斯福,《致阿尔伯特·爱因斯坦博士的信》,1939 年 10 月 19 日,维基共享资源 (https://commons.wikimedia.org/wiki/File:Roosevelt-einstein-letter.png)
  8. 伊丽莎白二世女王,《致玛丽的信》,1945 年 4 月 24 日 (https://www.express.co.uk/news/royal/1668073/queen-handwritten-letter-friend-world-war-two-spt)
  9. 让-米歇尔·巴斯奎特 (1960-1988),《公证人》,1983 年,普林斯顿大学艺术博物馆
  10. 可口可乐广告,2013 年,维基共享资源 (https://commons.wikimedia.org/wiki/File:Coca-Cola_advertisement_%288980379083%29.jpg)

社区

注册登录 以评论