VLM 艺术分析
Microsoft Florence-2 和 阿里云 Qwen2-VL 的 VLM 艺术分析
本研究旨在分析和比较基础模型 Microsoft Florence-2 和 阿里云 Qwen2-VL 在处理和解释艺术品时所获得的结果。
Florence-2 于 2024 年 6 月由 Microsoft 推出。作为一个具有零样本和微调能力的小型模型,它旨在根据文本提示和任务指令检测、标注和分割图片中的元素。FLD-5B 包含 1.26 亿张图像上的 54 亿条综合视觉标注,“采用自动化图像标注和模型改进的迭代策略”。Florence-2 经过序列到序列结构的训练。它被认为是“强大的视觉基础模型竞争者”。
Qwen2-VL 是 Qwen 系列中 VLM 的最新版本,由阿里云于 2024 年 8 月 30 日发布。它“在视觉理解基准(包括 MathVista、DocVQA、RealWorldQA、MTVQA)上取得了最先进的性能”。该模型可以理解和分析甚至长视频,可在手机上使用,并支持多种语言,主要包括英语以及欧洲和亚洲语言。它被描述为能够“处理任意图像分辨率,将其映射为动态数量的视觉标记,提供更像人类的视觉处理体验”。其多模态旋转位置嵌入(M-ROPE)能够“将位置嵌入分解为多个部分,以捕获一维文本、二维视觉和三维视频位置信息,从而增强其多模态处理能力”。Qwen2-VL 是一个开源模型,包括基于 Apache 2.0 许可证的 Qwen2-VL-2B 和 Qwen2-VL-7B,以及基于 Qwen 许可证的 Qwen2-VL-72B。这些模型与 Hugging Face Transformers、vLLM 和其他第三方框架集成。
在本研究中,我使用了 Google Colab 上的 Florence-2-base 和 Qwen2-VL-2B 模型,因为它们是标准、易于访问且价格实惠的模型,在所需空间和价格方面都是如此,Google Colab 上的 GPU 是免费的。
本研究的目的是评估 Florence-2-base 和 Qwen2-VL-2B 处理、理解和解释艺术品以及检测图像中物体的能力。我们将比较这两个模型对多种艺术品所获得的结果,这些艺术品风格、时期和知名度各异。在研究和比较所获得的结果后,我们将能够证明这两个模型在应用于艺术作品的不同任务中的效率。
Florence-2-base 处理和描述艺术品的能力分析。
我用于分析和描述艺术品的第一个模型是 Florence-2-base。Florence 是一款较小但高效的视觉语言模型,能够在没有任何任务指令的情况下识别图像中的一些主要物体(通过提示指令可以更轻松地定位它们)。
Florence-2-base 无法识别艺术品本身或艺术家。它在处理某些类型的物体时也遇到了困难:它在区分外观相似的物体时出现了问题。它也难以根据画作中的元素(衣服、建筑等)定义特定的时间段。在某些情况下,它很容易定义一些不太重要的元素,而完全无法注意到其中最核心的元素。
Florence-2-base 对《贵妇与独角兽》(约1500年)的分析。
对《贵妇与独角兽》中世纪挂毯的分析成功地将主要人物定义为“中世纪女子”和狮子,但若无任务指令,则无法检测其他元素。
使用 Florence-2 的“Dense region caption”命令获得的结果。
使用“CAPTION_TO_PHRASE_GROUNDING”命令强制 Florence-2 定义画作中更多元素后的物体检测结果。
Florence-2-base 对《贵妇与独角兽》挂毯的描述如下:
"更多 _详细_说明":'图像是一幅画。画作是红色和蓝色的。画作的左右两侧都有树木。一名穿着红色连衣裙的女子站在蓝色帐篷前。女子右手握着一把剑。左侧有一只白狮。狮子后腿站立。'}
虽然它成功识别了挂毯中的主要颜色以及自然和建筑元素,但 Florence-2-base 似乎在识别独角兽时遇到了问题(只提到了狮子),或者可能将独角兽误认为是狮子,因为它在描述中被描述为“白色”。值得一提的是,它还提到了女人手中握着一把“剑”,但实际上画中并没有剑,可能是将其与女人伸向珠宝盒的手混淆了。它在描述中完全忽略了旁边的另一个女人。
正如我们在由“CAPTION_TO_PHRASE_GROUNDING”命令提示的此图像中看到的,在 Florence-2-base 对《贵妇与独角兽》挂毯的分析中,模型特别关注自然元素(树木)和大量“狮子”,它用这些词来定义图中几乎所有存在的动物。
Florence-2-base 对拉斐尔《雅典学院》的分析。
Florence-2-base 对拉斐尔的《雅典学院》的分析和描述相当能代表该模型的能力。这幅意大利文艺复兴壁画绘制于 1508 年至 1512 年间,目前在梵蒂冈宗座宫殿展出。
虽然它成功识别了一些元素(特别是与建筑和装饰相关的),但它在识别几个物体时遇到了困难,并且似乎被大量的人形和类人形象(在此情况下,艺术品中柱子上的雕像)所迷惑。该模型一直将人物与这些雕像混淆,即使有提示指令也无法识别人物的名称(也因为人物太多)。
Florence-2 的主要关注点无疑是建筑的、无生命的元素,例如柱子和装饰元素。
在首次尝试物体检测时,Florence-2-base 将每个角色(包括场景周围的雕像)定义为“人”。
在第二次尝试中,即使有指令,Florence-2-base 也犯了同样的错误,只是方向相反,将几乎所有人物,无论是活的还是无生命的,都定义为“雕塑”。
Florence-2-base 似乎在检测抽象和概念元素方面存在问题。正如我们刚刚看到的,它必须通过提示来指示“独角兽”的存在,才能在《贵妇与独角兽》中定义它。
类似地,在《雅典学院》中,模型未能检测到哲学家的形象并将其定义为哲学家。在第一次尝试中,当被提示检测“一群聚集的希腊哲学家”时,它将他们称为“希腊复仇者”(Greekengers)。
在指令的推动下,当要求它定义“一群哲学家”时,Florence-2 未能检测到哲学家,而是将其中一尊雕像定义为“一群烟囱”(?)。
最终,当被提示描述“一群教授哲学的人”时,它成功地定义了该群体的成员类别。
Florence-2-base 对威廉·特纳《罗马从阿文廷山远眺》(1835)的分析。
我使用 Florence-2-base 来检测物体并描述一幅更近期的具象作品。在这种情况下,我选择了詹姆斯·马洛德·威廉·特纳的一幅画作,《罗马从阿文廷山远眺》(1835,私人收藏)。在这幅人物较少且元素更易识别和清晰定义的图像中,该模型成功地检测到了更多物体。
以下是 Florence-2-base 对特纳画作的三种描述,根据细节程度的不同,结果也各异:
使用“CAPTION”命令:“一幅描绘河流上有船只的画作”。
使用“DETAILED_CAPTION”命令:“在此图像中,我们可以看到一幅画作。画中有船只在水面上。还有建筑物。以及一棵树。右侧有两个人。”
使用“MORE_DETAILED_CAPTION”命令:“一幅描绘河流上有船只的画作。河边有一棵高大的树。树旁边的岩石上有两个人站着。”
有趣的是,“DETAILED_CAPTION”比“MORE_DETAILED_CAPTION”产生了更多内容,其中 Florence-2-base 唯一添加的新细节是树的大小和对一块岩石的提及(同时在此描述中再次忘记提及建筑物)。正如我们在其他例子中看到的,Florence-2-base 显然更侧重于建筑和自然元素。它再次未能识别出明确的时间段或画作中描绘的城市(在此案例中是罗马)。
Florence-2-base 对克劳德·莫奈《草地上的午餐》(1865-1866)的分析。
在分析了一幅古典文艺复兴艺术品和一幅 19 世纪风景画之后,似乎有必要继续探索 Florence-2-base 的艺术分析能力,并以印象派时期的一幅艺术品为例:克劳德·莫奈的《草地上的午餐》。
正如我们在这幅图像中看到的,该模型在适应众多人物的存在时遇到了困难。尽管这一次它更多地关注人物而非风景和自然元素,但它仍然难以定义人物及其周围的物体。这是可以理解的,因为这幅画的具象程度较低,物体也比我们之前使用的例子(无论是拉斐尔的壁画还是特纳的画作)定义得不那么清晰。
以下是模型给出的不同详细程度的描述:
使用“CAPTION”命令:“一幅画,一群人围坐在一张桌子旁。”
使用“DETAILED_CAPTION”命令:“在此图像中,我们可以看到一幅画。画中有人物。还有一张桌子。桌子上有瓶子、盘子、食物和许多其他物品。其中有许多树木。”
使用“MORE_DETAILED_CAPTION”命令:“一幅画,人们围坐在一张桌子旁。一名穿着白色连衣裙的女子坐在白色桌布前。桌子上方有瓶子。”
正如我们所见,Florence-2-base 在分析野餐概念和场景时遇到了困难。它似乎将其称为“桌子”。描述中出现了许多重复(例如“在此图像中,我们可以看到一幅画。画中有人物”)。此外,在这些描述中,模型再次难以定义人物,仅识别出一人或将其称为一个群体。
Florence-2-base 对瓦西里·康定斯基《印象 III(音乐会)》(1911)的分析。
我们以瓦西里·康定斯基1911年的抽象画《印象 III(音乐会)》作为另一个例子。对于这幅艺术品,Florence-2-base的艺术分析不是很成功。
在它的描述中,模型成功地识别了形状和正确的颜色,但错误地将人物定义为一朵“花”,然后是一群“花”,而不是它们真正的样子:一组非常抽象的人形。
使用“MORE_DETAILED_CAPTION”命令:“一幅用黑色、白色、蓝色、红色和黄色完成的画作。画作在白色背景上有黑色轮廓。画作的白色表面有黑色圆点。左侧有一朵红色、白色和黑色的花。花朵颜色各异。黄色背景上有一个圆圈。”
在这种抽象画的案例中,Florence-2-base未能轻松检测到物体。使用“DENSE_REGION_CAPTION”命令,它将整个图像定义为一幅画,而未检测到任何其他元素。
Florence-2-base 处理和分析艺术品能力的这项研究结论。
我们对 Florence-2-base 进行的艺术品分析得出以下结论:总的来说,该模型在识别物体方面效率很高,但存在错误(即使在指令的引导下),并且在识别人物、地点或时间段方面存在问题。该模型在区分外观相似的物体时遇到困难,例如它无法区分人物和雕像。它在识别和分类人物方面也遇到问题,尤其是当人物数量过多时。
该模型的解释存在局限性,特别是在处理不那么具象和过于拥挤的抽象图像时。我注意到,指令中描述的项目越具体,Florence-2-base 在定义对象时就越容易混淆。结果对于了解一般背景、简短描述或检测某些类型的对象(特别是建筑和自然元素、动物等)很有用。但当通过提示要求更详细地描述和区分对象和人物时,即使有空间指示,也导致了混合、混乱和不正确的最终结果。
Qwen2-VL-2B 处理和描述艺术品的能力分析。
在对 Florence-2-base 进行艺术品分析之后,我用 Qwen2-VL-2B 再次进行了分析。目标是了解该模型如何检测元素、分析和解释艺术品,并在某种程度上评估它在艺术品分析方面与 Florence-2-base 相比的表现。
Qwen2-VL-2B 在分析和解释画作方面表现出色,特别是那些最著名的作品。一般来说,我几乎没有提供任何指令。该模型能够完全生成包含正确时间段、地点或主题的描述。
Qwen2-VL-2B 对拉斐尔《雅典学院》的分析。
在用 Florence-2-base 分析拉斐尔的《雅典学院》壁画之后,有必要继续用 Qwen2-VL-2B 对同一件艺术品进行分析,以便观察这两个模型在艺术分析方面所呈现的差异。
当被要求解释图像时,在未提供任何指令的情况下,模型生成了以下冗长的描述。
Qwen2-VL-2B 识别出正确的大致时间段(“来自古希腊或罗马时期”),使用了大量描述性词汇,与艺术史描述中常用的术语保持一致(“前景……中景……背景……建筑元素,如柱子和拱门,增加了场景的宏伟……这幅画是古典场景的细致而复杂的描绘……宏伟而华丽的建筑背景”)。它还试图识别不同的人物,并成功地区分了他们与雕塑,这与 Florence-2-base 不同。虽然模型注意到人物的“古典服饰”,但它仍然未能将他们定义为哲学家,而是将他们的活动描述为:“正在进行讨论……一次会议或一个议会,人物似乎正在进行深入的对话或辩论……其中一些人正在写作或阅读……人物正在从事各种活动,包括对话、写作,以及可能正在进行某种仪式……这幅画的整体氛围是知识和社区活动……”。看来,截至目前,无论是 Florence-2-base 还是 Qwen2-VL-2B 都未能定义何为哲学家。
虽然 Qwen2-VL-2B 给出了准确、笼统的描述,但它也开始陷入循环,例如在描述该群体的活动时。与 Florence-2-base 类似,它将主要重点放在建筑元素上。有趣的是,该模型试图给出自己对艺术品的解释。
Qwen2-VL-2B 对瓦西里·康定斯基《田园》(1911)的分析。
我用来评估 Qwen2-VL-2B 艺术分析能力的下一个艺术品是一个抽象画。在这种情况下,这幅画是瓦西里·康定斯基的《田园》(1911),来自纽约所罗门·R·古根海姆博物馆。
在第二次尝试描述一幅画作时,这次是风格、类型和时期都截然不同的画作,Qwen2-VL-2B 成功识别了艺术家(我未提供任何指示)。相反,它未能对画作进行准确的描述和解释。它确实被识别为一幅名为《火烈鸟》的画作(据我的研究,康定斯基从未尝试画过这个主题)。
有趣的是,Qwen2-VL 对康定斯基画作的描述是基于一个中心火烈鸟形象,模型甚至为此画作命名:“中心形象是一只火烈鸟,描绘成蓝绿色身体和粉红色头部。火烈鸟被 […] 包围,包括一只蓝绿色鸟、一只粉白色鸟,以及一朵蓝色和一朵绿色花”。模型遗漏了占据艺术品主要部分的四个人物群体,以及背景中的动物、树木和风景形象。它根据草地、水和粉红色形状之间混合的彩色元素来定义火烈鸟,然后将其重新用于定义围绕这只“火烈鸟”的鸟类。
虽然 Qwen2-VL-2B 在识别这幅画的艺术家方面非常成功(令人惊讶!),但必须指出,它未能对艺术品进行非常准确的描述,遗漏了主要人物,并从背景元素混合在一起中找到了画作的含义和标题,这没有任何意义。
Qwen2-VL-2B 对克劳德·莫奈《草地上的午餐》(1865-1866)的分析。
第三次使用 Qwen2-VL 进行绘画分析时,使用的是一幅不那么抽象的画作。尽管如此,其更具印象派风格的特点仍导致模型在定义物体时出现混淆。对于克劳德·莫奈的《草地上的午餐》(已由 Florence-2-base 分析过),Qwen2-VL-2B 对艺术品的描述内容广泛且总体准确,将正确的时间段定义为 19 世纪后期(显然是根据服装风格),并正确描述了画作中的各种人物。不过,它确实犯了一个错误,指示存在一个“孩子”——实际上,在实际的画作中根本看不到。
莫奈画作中的人物定义和辨识度较低(即使不像康定斯基的例子那样抽象),这给 Qwen2-VL-2B 的描述带来了一些挑战。虽然大部分描述都相当相关:“暗示场景可能设置在 19 世纪后期。整体氛围轻松闲适,一群人在宁静的森林环境中享受野餐”,但值得注意的是,在最初正确地将野餐时铺在草地上的桌布描述为“铺在地上的桌布”之后,模型随后将其描述为“桌子”:“在桌子上……有两个人坐在桌旁……另一个人站在桌子附近”。
Qwen2-VL-2B 再次将其描述重点放在自然元素上:“一个自然的、室外座位,背景是郁郁葱葱的绿色树木和植物。”
Qwen2-VL-2B 对克劳德·莫奈《印象·日出》(1872)和文森特·梵高《星月夜》的分析。
当被要求识别知名艺术家的最著名艺术品时,Qwen2-VL-2B 能够极其成功地立即识别它们。它完全识别出文森特·梵高的《星月夜》(1889 年,MoMA)和莫奈的《印象·日出》(1872 年,马摩丹博物馆),没有提供任何指令。该模型成功识别了画作和画家的姓名,这可能归功于签名或这些作品是众所周知的艺术品,但结果中的描述仍然令人印象深刻。两者都准确、简洁且书写良好,符合艺术品描述的惯常风格,甚至将艺术品归类到其艺术家的职业生涯中。
对于莫奈的杰作,模型甚至在没有任何指令的情况下,成功识别出其所属的艺术运动:“这幅画的特点是其松散的印象派风格,捕捉了自然界中光线和色彩的转瞬即逝的效果。明亮对比色的运用以及笔触营造的动感和活力是莫奈画作的突出特征……它被认为是莫奈最具标志性的作品之一。”
对于文森特·梵高的《星夜》,该模型成功识别出艺术品、艺术家,并将其置于梵高职业生涯的背景下,评估了其在艺术史上的影响。
如描述所示,Qwen2-VL-2B 成功识别了主题:“画作描绘了星光闪烁、明亮发光的夜空,营造出一种动感和活力。”该模型多次强调“旋转”人物的存在、画作中光/暗的对比以及扭曲的形状,以重复的方式。它确实成功地提供了对艺术品令人信服的分析:“动感。天空被一颗巨大而明亮的黄色星星所主宰,它在深蓝色背景下显得格外突出……前景中有一棵高大、黑暗的树,树干扭曲,形状弯曲……树下有一个小村庄,上面有一座教堂的尖顶。”非常有趣的是,Qwen2-VL 能够不仅将艺术品置于梵高的作品中,而且置于艺术史本身中:“总的来说,《星夜》是梵高风格的杰作,它被广泛认为是艺术史上最具标志性和影响力的画作之一。”
至于莫奈的《印象·日出》分析,必须指出,Qwen2-VL-2B 在我未提供任何指令、指示或建议的情况下,给出了这份完整的描述。
Qwen2-VL-2B 对克劳德·莫奈《圣乔治马焦雷的黄昏》(1908-1912)的分析。
对于我们接下来用 Qwen2-VL-2B 分析的另一幅克劳德·莫奈画作(这次是他职业生涯后期的作品),选择的艺术品是《圣乔治马焦雷的黄昏》(1908-1912)。在这种情况下,Qwen2-VL 未能识别出画家、画作或威尼斯的背景。
该模型以其雄辩的风格,对画作进行了简短、简洁但富有描述性的解释:“天空被涂上了温暖的橙色和黄色,随着下沉,过渡到更深的蓝色和紫色。”尽管它没有识别出威尼斯或意大利的总体背景(“坐落在一座小山或高台上。前景是一片水域,可能是河流或湖泊,倒映着天空和建筑物的颜色”),但该模型确实成功识别出这座建筑物是一座教堂/大教堂——而且识别正确:“这座建筑物似乎是一座教堂或大教堂。”
尽管美学描述和分析非常出色,但该模型在此示例中未能正确识别画作的主要元素,也未能识别艺术家的姓名。
Qwen2-VL-2B 处理和分析艺术品能力研究的结论。
总的来说,Qwen2-VL-2B 在识别画作主题以及艺术家姓名方面表现出色。它还能在没有任何指令或信息的情况下(除了要求它“解释图像”之外)识别出最著名的画作。它能够将艺术品与特定的艺术运动联系起来。相反,它在识别知名度较低或不太能代表艺术家风格的画作方面效率不高。
描述具象绘画的结果通常比抽象绘画的准确得多。对于印象派和后印象派艺术绘画,结果喜忧参半:对于本研究中最著名的艺术品(莫奈的《印象·日出》和梵高的《星夜》)来说,结果非常相关且准确;而对于其他两幅莫奈的印象派、知名度较低的艺术品,则混合了准确元素和错误或缺乏物体检测。
对建筑和自然元素的描述通常是最相关的,这在 Florence-2-base 的分析结果中也有所体现。在 Qwen2-VL-2B 的案例中,物体通常被很好地检测到(教堂、建筑物、人物等),即使存在一些小错误。它还凭空创造了一些画中不存在的元素。在它的描述中,该模型使用了艺术史中艺术品分析常用的术语和风格,这令人印象深刻。
结论
总而言之,在分析、描述和解释艺术品方面,Qwen2-VL-2B 取得了最好的整体效果,这并不奇怪,因为它是一个更大规模的模型,与 Florence-2-base 相比,并且在视觉分析方面有不同的目标。Qwen2-VL-2B 的描述中仍然存在一些错误:该模型在某些语言(例如法语)方面存在困难。当它难以破译和定义某些元素时,它也会陷入循环。无论如何,它在识别艺术家、绘画、艺术运动、明确的时间段和艺术品主题方面的能力确实令人印象深刻,特别是对于那些更具象的绘画。Qwen2-VL 所使用的风格在描述艺术品方面也与艺术史研究中使用的风格一样准确。
Florence-2-base 成功地达到了其目标,即成为一个经过训练的模型,能够检测和精确定位图像中的主要物体。它成功地定义了元素,无需任何指令,特别是与自然和建筑相关的元素,在不太拥挤的场景中更是如此。虽然它更容易识别动物而不是人物,但在两种情况下,当人物外观相似、从事相同活动或站立和坐得很近时,它都遇到了困难。
Florence-2-base 在区分具有人形特征的无生命物体(如雕像)和人物方面存在问题,即使通过提示指令进行引导也未能解决。它无法识别某些类型的特征(如时间段)和活动(例如,定义拉斐尔壁画中“哲学家”这样的职业)。对于具象绘画和形状更清晰的绘画,结果通常比抽象艺术更好。尽管如此,Florence-2-base 可能会受益于微调,以专门处理艺术作品,从而避免本研究中遇到的问题。
正如预期的那样,Qwen2-VL-2B 能够对艺术作品进行更长、更完整的描述。Florence-2-B 在检测物体和成功描述艺术作品的能力方面被证明是一个相关的视觉模型,尽管描述更为简洁。仍有待观察这两种模型与其其他版本(如 Florence-2-large 和 Qwen2-VL-7B)的比较情况,以及它们将如何随着时间的推移发展,以实现更广泛、更好、零样本的结果。
在本研究中,我还有机会处理仅包含文本元素的图像:虽然在 Florence-2-base 和 Qwen2-VL 分析的画作选择中包含文本部分(签名等),但我也使用了一些仅呈现文本的图像作为示例。在这种情况下,我使用了法语和英语的手写信件。虽然处理英语信件的结果肯定更成功,但在解释其内容和破译手写内容方面仍然存在困难,尤其是当手写内容不清晰时,导致循环问题。在 Florence-2-base 的案例中,结果甚至根本无法理解法语单词,导致基于听起来像英语单词的法语句子不连贯。Qwen2-VL-2B 在理解法语信件方面也遇到了麻烦,只理解了其中一部分。
因此,在下一次研究中,比较 Florence-2 和 Qwen2-VL 分析和处理包含文本的图像的结果将会很有趣,也可以结合 CVAT.it 进行。目标是观察这些模型如何通过 OCR 处理,转录、破译和解释仅包含书面文本(无论是手写还是印刷)的图像。这将是我下一篇文章的主题。
常见问题
Florence-2-base 和 Qwen2-VL-2B 在分析艺术品时有何不同?
Florence-2-base 和 Qwen2-VL-2B 都成功地分析艺术品,检测主要物体/主题,并提供相关的描述,涵盖多种绘画流派。作为更大规模的模型,Qwen2-VL-2B 具有更长的描述能力,它还能在没有任何指令的情况下,仅凭艺术品识别出一些艺术家和画作的名称。Florence-2-base 也成功地定义了图像中的主要物体,特别是那些最具象的。Qwen2-VL-2B 在识别本研究中使用的最著名的印象派和后印象派绘画方面非常准确,但对于其他印象派、知名度较低的艺术品,它生成的结果却喜忧参半,甚至无法识别。两种模型在抽象艺术方面都遇到了问题。
遇到的主要问题是什么?
本研究中遇到的主要问题是特别定义某些物体。即使有提示和指令的推动,Florence-2-base 和 Qwen2-VL-2B 也未能成功定义图像中的某些元素。主要问题与抽象和不那么具象的艺术品有关。在 Florence-2-base 主导的分析中,它还难以理解和定义某些特定物体和概念,或根据画作中的元素设定明确的时间段和地点。
哪些类型的画作取得了更成功的结果?哪些画作更难被 Florence-2-base 和 Qwen2-VL-2B 处理?
很明显,在艺术分析的特定情况下,Florence-2-base 和 Qwen2-VL 处理和解释艺术品的更成功结果是在具象、古典绘画中获得的。尽管在主题和人物较难理解的绘画中(例如在更拥挤的场景中)遇到了困难,但两种模型在具象艺术方面都取得了更准确的结果。在印象派和抽象艺术方面,结果不那么相关,特别是 Florence-2-base 在分析主题时。Qwen2-VL 在这一类别中表现更好,甚至在这些艺术运动的艺术品特别知名时,能够识别出艺术家和画作的名称,但仍然存在一些问题,特别是对于知名度较低的画作(例如主要主题的准确性不足)。
关于使用 Florence-2-base 和 Qwen2-VL 分析图像中的文本,有什么要说的?
Florence-2-base,特别是经过微调的,以及 Qwen2-VL,在处理、分析和解释图像中的文本方面也具有良好的能力和巨大的潜力。对信件和手写文档进行的一些测试表明,虽然在破译某些类型的文本方面仍然存在一些问题,但这些模型能够成功地解释它们。这将是我下一篇文章的主题。敬请期待。
参考文献
- Bin Xiao,《Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks》,载于 CVPR 2024,2024年6月,网址:“https://www.microsoft.com/en-us/research/publication/florence-2-advancing-a-unified-representation-for-a-variety-of-vision-tasks/"
- Qwen2-VL 介绍页面,GitHub (https://github.com/QwenLM/Qwen2-VL)
- 安妮·德·布列塔尼大师(又名让·迪普雷),《独角兽夫人》(约 1500 年),克鲁尼博物馆,巴黎
- 拉斐尔(1483-1520),《雅典学院》(1509-1511),梵蒂冈城宗座宫
- 詹姆斯·马洛德·威廉·特纳(1775-1851),《罗马从阿文廷山远眺》(1835),私人收藏
- 克劳德·莫奈(1840-1926),《草地上的午餐》(1865-1866),奥赛博物馆,巴黎
- 克劳德·莫奈(1840-1926),《印象·日出》(1872),巴黎马摩丹博物馆
- 克劳德·莫奈(1840-1926),《圣乔治马焦雷的黄昏》(1908-1912),卡迪夫国家博物馆,卡迪夫
- 文森特·梵高(1853-1890),《星月夜》(1889),纽约现代艺术博物馆
- 瓦西里·康定斯基(1866-1944),《印象 III(音乐会)》(1911),慕尼黑莱姆巴赫之家
- 瓦西里·康定斯基(1866-1944),《田园》(1911),纽约所罗门·R·古根海姆博物馆