使用 DeepSeek Janus-1.3B 进行 VLM 视觉艺术分析
引言
最初与 DeepSeek Janus-1.3B 进行此次分析的计划是在与之前对 Janus-1.3B 进行文本图像研究以及之前对 Microsoft Florence-2-base 和 Qwen2-VL-2B 进行图像和 OCR 分析时相同的条件下处理图像。但由于在 Google Colab 上使模型正常运行的问题,我不得不寻找另一种使用 Janus-1.3B 处理图像的方法。
因此,这项研究是使用 Hugging Face 上可用的 Janus-1.3B 在线演示进行的,这让我能够最终评估模型分析图像的能力。
图像语料库与之前使用 Florence-2-base 和 Qwen2-VL-2B 处理和分析的图像语料库相同。目的是观察 Janus-1.3B 将如何分析艺术作品。我们之前对 Janus-1.3B 的研究得出的结论表明,虽然该模型能够提供简明而令人信服的描述(尤其是在处理美学元素时),但它在解释/理解内容方面存在问题。Janus-1.3B 似乎无法根据其先前的知识来解释文本。由于本次研究的条件和方法与之前使用 Florence-2-base 和 Qwen2-VL-2B 进行的研究不完全相同,因此目标不再是进行比较,而是特别观察 Janus-1.3B 在 Hugging Face 演示中分析图像和检测对象的能力。
分析拉斐尔的《雅典学院》,1509-1511 年,使徒宫,梵蒂冈城
在 Hugging Face 演示中处理和分析的第一张图像是拉斐尔的《雅典学院》。Janus-1.3B 对这幅文艺复兴时期壁画的分析结果总体上比我们的 OCR 分析要准确和完整得多。
在 Hugging Face 演示中,给 Janus-1.3B 的第一个“问题”是“解释图像”。这导致了对拉斐尔艺术品冗长而高度详细的描述。装饰元素是模型分析的主要焦点,这我们在 Florence-2-base(在某种程度上也包括 Qwen2-VL-2B)给出的结果中也注意到了。该模型在此演示中,组织了几个类别的元素(建筑、人物、装饰),并还提供了调色板分析和解释。以下是完整结果:
"该图像描绘了一幅精美的湿壁画,可能来自文艺复兴时期,展示了一个宏伟的建筑内部,其中有许多人物从事各种活动。壁画细节丰富,融合了人物、建筑元素和装饰图案。
建筑元素:
- 拱门和立柱:壁画中有一系列拱门和立柱,营造出一种深度和宏伟感。拱门上装饰着复杂的雕刻和模具,增添了场景的整体华丽感。
- 窗户:背景中有几扇窗户,让自然光线照亮室内并突出建筑细节。
人物:
- 多样活动:壁画描绘了各种人类活动,包括:
- 社交互动:人物之间进行交谈、手势和互动,暗示着一次社交聚会或公共活动。
- 阅读和写作:一些人物似乎在阅读或写作,表明这是一个学术或知识分子场合。
- 仪式和典礼:壁画中有仪式和典礼的描绘,例如一个身穿蓝色长袍、手持书本的人物,可能是一位学者或牧师。
装饰元素:
- 雕塑:壁画中包含了几尊雕塑,它们融入了建筑设计之中。这些雕塑增添了场景的丰富性和细节。
- 花卉和几何图案:壁画中描绘了复杂的花卉和几何图案,这些图案是文艺复兴艺术的典型特征,增添了整体的美感。
调色板:
- 暖色调和冷色调:调色板以暖色调为主,包括橙色、红色和金色,这些颜色在文艺复兴艺术中常用于营造温暖和丰富感。
- 中性背景:背景是浅色、中性色,有助于突出人物和建筑元素。
解释:
考虑到身着长袍的人物和建筑背景,这幅壁画很可能描绘了古典神话中的场景或历史事件。壁画细致而复杂的性质表明它可能是一件文艺复兴时期著名艺术家的作品,例如米开朗基罗或莱昂纳多·达·芬奇。
结论:
这幅湿壁画是文艺复兴时期艺术的杰作,展示了艺术家的技巧和创造力。人物、建筑元素和装饰图案的细致描绘都为场景的整体宏伟和美丽做出了贡献。这幅湿壁画可能具有……”。
正如我们所看到的,Janus-1.3B 精通英语,以及艺术史描述中常用的表达方式(例如,“调色板以暖色调为主,包括橙色、红色和金色,这些颜色在文艺复兴艺术中常用于营造温暖和丰富感”)。该模型准确地将艺术品置于文艺复兴时期。它对美学元素给出了有趣的解释。正如我们之前对 Florence-2-base 和 Qwen2-VL-2B 的《雅典学院》研究一样,有趣的是模型试图找出人物在艺术品中正在进行的活动,但未能将其与哲学联系起来。与 Qwen2-VL-2B 产生的结果类似,它表明“人物之间进行交谈、手势和互动,暗示着一次社交聚会或公共活动 [...] 一些人物似乎在阅读或写作,表明这是一个学术或知识分子场合 [...] 壁画中有仪式和典礼的描绘。”
Janus-1.3B 试图识别艺术家的名字,它正确地将其指出为“文艺复兴时期著名艺术家”。给出的选项,“例如米开朗基罗或莱昂纳多·达·芬奇”不正确,因为这幅壁画是拉斐尔创作的。但这仍然突出表明该模型具有识别属于某个运动的艺术风格的良好能力。
在第二次尝试使用 Janus-1.3B 分析《雅典学院》时,提出的“问题”是:“描述图像”。
结果如下:“壁画分为几个部分,每个部分包含不同的人群。壁画的中心部分展示了一群人围着一个中心人物,这很可能是场景的焦点。这个中心人物身穿蓝色长袍,周围环绕着站立、坐着或跪着的人。人物的表情和姿势暗示着一个重要的互动或辩论时刻。
中心群体的左侧和右侧还有其他场景。在左侧,一群人正在进行一场讨论或争论。一些人物用强调的手势,而另一些人则专心聆听。人物的服装各不相同,有些穿着长袍,有些穿着更精致的服装。
在壁画的右侧,还有另一群人,其中一些人坐着,另一些人站着。这群人似乎处于一种更加沉思或庄重的气氛中,一些人物似乎在深思或祈祷。
壁画的建筑元素包括立柱、拱门和装饰线条。拱门尤其引人注目,其精细的雕刻和图案增添了场景的整体宏伟感。地板铺设着几何图案的瓷砖,还有几个壁龛和壁龛,其中包含其他人物或装饰元素。
这幅壁画以古典风格绘制,注重人物情感和互动。光影的使用也值得注意,在场景中营造出深度和维度感。整体构图平衡,中心群体与周围场景之间有清晰的划分。
鉴于壁画的细致和复杂性,这件艺术品很可能是更大历史或文化背景的一部分,可能是宗教或历史叙事。多个人物的存在和精致的建筑背景表明,这幅壁画可能是一个重大事件或历史叙事中的场景描绘。
总而言之,该图像是一幅精细的湿壁画,描绘了一个宏伟的大厅或庭院,其中一群人物正在进行重要的互动。场景充满了人物情感和建筑细节,专注于古典艺术风格和历史或文化背景”。
正如我们在这冗长的详细描述中看到的,Janus-1.3B 再次将主要焦点放在了装饰元素上。在这种情况下,它没有试图识别作者或这幅壁画所属的艺术运动。描述准确无误,没有出现误解或误读。该模型从左到右分析了绘画的每个部分。这个结果,即使没有将艺术品与特定的时代或艺术家联系起来,也仍然非常成功。
给 Janus-1.3B 的最后一个问题是“识别这幅壁画的作者”,以查看它在被要求寻找艺术家时会给出什么答案。结果是:“这幅壁画的作者是米开朗基罗”,这与之前的结果一样不正确,但表明该模型准确地将这件艺术品与文艺复兴时期的艺术时期联系起来。
分析文森特·梵高的《星月夜》,1889 年,纽约现代艺术博物馆
用 Janus-1.3B 在 Hugging Face 演示中分析的第二件艺术品是后印象派最著名的画作之一:《星月夜》,文森特·梵高创作。这幅画曾用 Qwen2-VL-2B 处理过,该模型成功识别了作品名称及其艺术家。
给 Janus-1.3B 的第一个指令是“解释这幅画”。
结果如下:“这幅画是文森特·梵高著名作品《星月夜》的复制品。它描绘了一个充满漩涡状云朵和星星的夜空,前景中有一棵突出的柏树。下面的村庄描绘了房屋和教堂的混合体,整体调色板以蓝色和绿色为主。这幅画是梵高独特风格的经典范例,其特点是漩涡状图案和鲜艳的色彩。”
对文森特·梵高画作的描述比壁画要短得多,这也可以解释为可分析的元素较少。有趣的是,Janus-1.3B 正确识别了艺术家和作品的名称。这表明 VLM 模型通常对非常知名且更易识别的图像有更好的理解。似乎在艺术和图像方面,Janus-1.3B 拥有更大的先前知识来解释内容——与文本图像分析中结果远不那么令人信服的情况相反。该模型甚至对艺术品提供了完美的解释,就像艺术史书籍中一样:“这幅画是梵高独特风格的经典范例,其特点是漩涡状图案和鲜艳的色彩。”
给 Janus-1.3B 的第二个指令是“描述图像”。
这个问题导致了更长的描述:
"图像是文森特·梵高著名画作《星月夜》的复制品。这幅标志性艺术品的特点是旋转、动态的笔触和鲜明对比的色彩,营造出一种运动和能量感。画中描绘的场景是一个夜间景观,前景是村庄,天空漩涡般充满了星星和天体。
详细描述:
天空和天体
- 天空深蓝色,带有白色和黄色的漩涡图案,代表着星星和云朵。
- 有几颗突出的星星,每颗都有一个明亮的黄色中心,周围环绕着白色和蓝色的笔触。
- 天空的右上象限被一个巨大、明亮的黄色太阳所占据,周围环绕着更小的星星和漩涡。
- 天空中充满了动态、富有表现力的笔触,传达出一种运动和深度的感觉。
村庄
- 村庄描绘在图像的下部,建筑和房屋具有某种程式化,几乎卡通化的外观。
- 屋顶以蓝色和灰色渲染,有些屋顶带有红色调。
- 村庄被起伏的丘陵和几棵树环绕,这些树的绘画风格与风景的其余部分相似。
树木和风景
- 前景中有两棵突出的树,一棵在左侧,一棵在右侧。
- 这些树的树干粗壮、深绿色,树枝扭曲缠绕,增添了画作的动态感。
- 村庄后面的景观由起伏的丘陵和山脉组成,以各种蓝色和绿色调绘制。
分析:
这幅画捕捉了梵高风格的精髓,其特点是运用大胆、富有表现力的笔触和鲜明对比的色彩。漩涡状的天空和天体让人联想到梵高著名的《星月夜》,这是他后印象派风格的典型代表。下面的村庄是梵高自己村庄的简化、程式化版本,这通常被视为艺术家与故乡联系的象征。”
Janus-1.3b 再次成功识别了艺术家和画作名称。它给出的描述很详细,主要关注调色板,并对分析的元素进行了分类(分为“天空和天体”、“村庄”和“树木和风景”,提供了不同层次的解释)。分析准确,称其“捕捉了梵高风格的精髓,其特点是运用大胆、富有表现力的笔触和鲜明对比的色彩”。对所描绘村庄的解释,即“梵高自己村庄的简化、程式化版本,这通常被视为艺术家与故乡联系的象征”并不完全准确,因为该村庄是梵高从圣雷米普罗旺斯房间看到的景色,而非代表艺术家的故乡(故乡在荷兰)。尽管如此,评估 Janus-1.3B 解释图像的能力仍然很有趣。在这种情况下,结果比我们之前对 Janus-1.3B 进行的文本元素研究要成功得多。
向模型提出的最后一个问题是“这幅图像的含义是什么”,以促使其给出另一种解释。
Janus-1.3B 给出的答案如下:“该图像是文森特·梵高著名画作《星月夜》的复制品。这幅画的特点是蓝色和黄色调的漩涡状动态图案,唤起一种运动和能量感。场景描绘了充满星星和巨大漩涡状月亮的夜空。下面的风景描绘了一个有房屋和教堂的村庄,所有这些都以梵高标志性笔触的相似风格呈现。整体构图平衡,左侧有高大的柏树,右侧有村庄,营造出一种深度和透视感。色彩和纹理的运用增强了画作的情感冲击力,使其成为后印象派运动的经典代表。”
这幅画的描述再次准确。它仍然主要基于美学特征,对画作进行了简短而正确的分析。即使问题要求解释这幅图像的含义,对这个指令也没有真正的答案。最能体现 Janus-1.3B 自身解释的部分是最后一句:“色彩和纹理的运用增强了画作的情感冲击力,使其成为后印象派运动的经典代表。”
如果说 Janus-1.3B 对文本内容的分析在准确性方面没有那么成功,那么在图像分析中则发现了更高的质量。尽管这幅画非常有名,但该模型能够正确识别它,以及艺术家的名字,这无疑令人印象深刻。虽然美学描述非常好且完整,但该模型并未提供准确的解释。它似乎高度能够识别元素(和整个绘画),但在分析图像含义方面存在更多困难,导致误解——例如,画中显示的村庄与梵高的家乡相关联。
由布列塔尼的安妮大师(又名让·迪普雷)创作的《贵妇与独角兽》挂毯,约 1500 年,法国巴黎克吕尼博物馆
用 Janus-1.3B 处理和分析的第三张图片是中世纪挂毯《贵妇与独角兽》。这件艺术品曾在我们之前的研究中由 Florence-2-base 分析过,但由于处理所描绘的各种人物时出现了一些误解和问题。
第一个“解释图像”的命令得到了以下答案:
"该图像描绘了一幅色彩丰富、错综复杂的挂毯或绘画,似乎受到了中世纪或文艺复兴艺术的启发。中心人物是一位庄严的女子,站在一个蓝白条纹帐篷下,帐篷上装饰着一面写有“CIVITAS FELIX”字样的旗帜。她身穿华丽飘逸的长袍,左手拿着一本书或手稿。
中心人物周围有几个其他角色,包括左侧的狮子,女子前面基座上的狗,以及右侧的独角兽。独角兽后腿站立,前腿抬起,仿佛在做出庆祝或嬉戏的姿态。
背景充满了各种元素,包括树木、鸟类和其他动物。还有几面旗帜,其中一面是蓝白条纹的,与帐篷相似。整个场景以红粉色背景衬托,背景上装饰着密集的树叶和花朵图案。
这幅挂毯还描绘了各种其他动物,如鸟类、兔子和鹿,它们散布在整个场景中。整件艺术品的风格 reminiscent of 中世纪或文艺复兴时期的挂毯,其人物及其周围环境的描绘细致而华丽。
“CIVITAS FELIX”是拉丁语,意为“幸运之城”,这个词常与罗马共和国的菲利克斯城联系在一起。这表明这幅挂毯可能受到了罗马神话或历史的启发。
总而言之,该图像是一幅丰富而细致的挂毯或绘画,描绘了一位庄严的女子在帐篷下,周围环绕着各种动物和自然元素。场景以红粉色背景衬托,背景上装饰着密集的树叶和花朵图案,而“CIVITAS FELIX”的文字则暗示着与罗马神话或历史的联系”。
从这项分析中我们可以看出,Janus-1.3B 成功地将艺术品识别为来自“中世纪或文艺复兴艺术”的挂毯。对这位女士的描述相当精细:“一位庄严的女士站在一个蓝白条纹的帐篷下 […] 她身穿华丽飘逸的长袍,左手拿着一本书或手稿”。与描述相反,这位女士手里没有拿书,而是从另一位女士手中的盒子里取出的珠宝。图像中的另一位女士没有被提及,除了指示中心人物周围“其他几个角色”之外。对动物的描述非常准确:Janus-1.3B 成功地正确识别了狮子和独角兽(这在 Florence-2-base 的描述中缺失了)以及“基座上的狗”。对颜色和图案的美学分析相当完整且执行良好。这项分析的主要问题是文本的转录——这让人回想起我们在之前用 Janus-1.3B 进行 OCR 分析时遇到的困难。事实上,帐篷上的铭文写着“A mon seul désir”(英语翻译为“To my only desire”,与爱情信息相关)。Janus-1.3B 对文本的转录写着:“CIVITAS FELIX”,它解释说“CIVITAS FELIX”是拉丁语,意为“幸运之城”,这个词常与罗马共和国的菲利克斯城联系在一起。这表明这幅挂毯可能受到了罗马神话或历史的启发”。铭文既不是“CIVITAS FELIX”,也不是拉丁语。铭文“CIVITAS FELIX”实际上翻译为“幸福之城”。罗马共和国从未有过菲利克斯城:它可能指的是罗马时期古卡普亚的领土,有时被称为“坎帕尼亚菲利克斯”。再次,虽然美学描述非常好,但 Janus-1.3B 的转录能力目前并不是高度准确的,尤其是转录法文文本时。需要注意的是,铭文是用程式化的字符书写的,这可能使模型更难处理。
使用“描述图像”命令时,结果与第一个答案相似
"图像描绘了一幅精细而多彩的挂毯,似乎是中世纪或文艺复兴风格的艺术品。挂毯的中心焦点是一位庄严的人物,很可能是一位女王或公主,她站在一个带有蓝白条纹天篷的大型华丽帐篷下。帐篷上装饰着一面写有“CIVITAS VIRGINIA”字样的旗帜,意为“弗吉尼亚城”。
女王身着华丽飘逸的服装,主要以红色和金色调为主,手持权杖,象征着她的王权。她周围有几位侍从,包括一位身穿粉色连衣裙的女子,她似乎正在协助女王完成一项任务。还有一位身穿蓝色束腰外衣的男子,他似乎正在协助女王处理一份文件或一本书。
场景设置在一个郁郁葱葱的森林环境中,描绘了各种动物和植物。有几种动物,包括狮子、独角兽和山羊,它们都围绕着女王和侍从。狮子在挂毯的左侧,独角兽在右侧,山羊在前景靠近帐篷的地方。
挂毯的背景充满了复杂的花卉图案和叶子,营造出丰富的色彩挂毯,主要以粉色、蓝色和绿色调为主。整个场景由一个边框环绕,边框具有重复的叶子和花朵图案,增加了艺术品的整体华丽和细致性。
这幅挂毯还包含其他几个元素,这些元素有助于其展现中世纪或文艺复兴美学。天空中飞翔着鸟儿,背景中可以看到几只动物,如鹿和兔子。此外,还有几面旗帜,其中一面醒目地展示在挂毯的右侧。
挂毯蕴含着丰富的象征意义和细节,反映了其所代表时期的宏伟和华丽。帐篷、皇室人物和侍从的存在暗示着皇室、权力以及可能的皇家宫廷或仪式性活动的主题。
总而言之,该图像是一幅精细而多彩的挂毯,描绘了一个庄严的场景,中心人物位于一个皇家帐篷中,周围环绕着侍从和动物,置身于郁郁葱葱的森林环境中。挂毯蕴含着丰富的象征意义和细节,反映了其所代表时期的宏伟和华丽”。
这一次,Janus-1.3B 将主要人物描述为“女王”。美学描述再次非常完整和详细,尤其提到了所有装饰元素,并列出了人物:“挂毯的背景充满了复杂的花卉图案和叶子,营造出丰富的色彩挂毯,主要以粉色、蓝色和绿色调为主 [...] 挂毯还包含其他几个元素,这些元素有助于其展现中世纪或文艺复兴美学。天空中飞翔着鸟儿,背景中可以看到几只动物,如鹿和兔子。”
对于此描述,模型正确地将第二位女性识别为“一位身穿粉色连衣裙的女性,她似乎正在协助女王完成一项任务”。提到“一位身穿蓝色束腰外衣的男性,他似乎正在协助女王处理一份文件或一本书”是不准确的,因为这在挂毯上找不到。Janus-1.3B 准确地将艺术品定位为“中世纪或文艺复兴风格”。它还提到了狮子和独角兽的存在,并将其正确放置在图像中。此描述中的主要问题,除了提及未知隐形人之外,仍然是转录:这一次,Janus-1.3B 指出其解读为“CIVITAS VIRGINIA”,并翻译为“弗吉尼亚城”,这也是不正确的。
对该图像向模型提出的最后一个问题是“独角兽在这幅图像的哪个位置?”,它回答道:“独角兽位于图像的右侧,靠近底部。它以后腿站立,前腿抬起,仿佛要向前迈步。”。描述完全准确。
正如我们对《贵妇与独角兽》挂毯的分析所见,Janus-1.3B 具有令人难以置信的图像分析能力,尽管仍有一些失误和误解。该模型正确地检测、描述并定位了图像中的元素。它曾试图将其与正确的历史时期联系起来。唯一的主要问题是处理和转录法文文本元素,这与我们之前使用 Janus-1.3B 进行 OCR 研究时遇到的情况类似。美学描述非常完整。
分析克劳德·莫奈的《草地上的午餐》,1865-1866 年,法国巴黎奥赛博物馆
用 Janus-1.3B 分析的第四幅图像是克劳德·莫奈的印象派作品《草地上的午餐》,该作品之前也曾由 Florence-2-base 和 Qwen2-VL-2B 处理过。
模型收到的第一个指令是“解释图像”,它给出了以下分析:
“图像描绘了森林中野餐的场景。图像中有三个人,两男一女。女子坐在草地上铺开的白色毯子上,身穿浅色连衣裙。她手持一个盘子,似乎正在吃饭或准备吃饭。在她旁边,一个男子坐在地上,身穿深色衣服,可能是西装或夹克。他手持一瓶酒,似乎正在与女子交谈。另一名男子站在女子身后,身穿浅色外套和帽子,手持遮阳伞。背景是郁郁葱葱的绿色树木和植物,暗示着宁静自然的场景。野餐的布置包括各种物品,如瓶子、篮子、盘子以及毯子上的一些水果或蔬菜。图像的整体氛围平静悠闲,捕捉了在大自然中放松享受的时刻。”
在这种情况下,Janus-1.3B 未能识别艺术家或画作的名称。“森林中野餐”的描述是正确的。模型检测到三个人物,两男一女,而不是画中描绘的四个人物。模型准确地描述了坐着的女人和坐在她旁边的男人(但他似乎“正在与女人交谈”这一点在图像上并不清楚)。该模型,正如 Florence-2-base 和 Qwen2-VL-2B 一样,将一部分描述集中在自然元素上:“背景是郁郁葱葱的绿色树木和植物,暗示着宁静自然的场景。” 对物体的描述和定位是准确的,比 Florence-2-base 获得的结果更准确。Janus-1.3B 对画作的解释,即“图像的整体氛围平静悠闲,捕捉了在大自然中放松享受的时刻”,与这幅图像所传达的印象相符。没有尝试将画作与特定时期联系起来,这与 Qwen2-VL-2B 不同,后者根据人物穿着的衣服正确地将场景定位于 19 世纪末。
第二次分析克劳德·莫奈的《草地上的午餐》是使用“描述图像”命令。
结果如下:
“图像描绘了森林中野餐的场景。背景是户外,郁郁葱葱的绿色树木和植物提供了自然的背景。场景由几个人物组成,包括一名男子、一名女子和一个孩子,他们都穿着当时的服装。
坐在图像左侧的男子身穿深色西装,配白色衬衫和红色领带。他似乎正在与坐在他旁边的女子交谈。女子身穿浅色连衣裙,系着蓝色腰带,手中拿着一个盘子。她的姿势表明她要么即将用餐,要么刚刚用完餐。
在女子右侧,有一个孩子,也穿着当时的服装,坐在地上。孩子手里拿着一把遮阳伞,这是19世纪户外活动的常见配饰。遮阳伞是打开的,为孩子遮蔽阳光。
背景中,还有一名男子站立,身穿浅色外套和帽子。他似乎在观察场景,或者可能在等待加入野餐。
野餐的布置包括铺在地面上的毯子,上面放置着各种物品。有一个装有水果的篮子,一个瓶子和一个装有食物的盘子。水果包括苹果和可能其他类型的产品,表明野餐有各种食物。
图像的整体氛围宁静悠闲,捕捉了在大自然中放松享受的时刻。服装和场景表明这个场景是19世纪末或20世纪初的,当时野餐是一种流行的消遣方式。
绘画风格写实,注重服装、物品和自然环境的细节。光影的运用增加了场景的深度和维度,使其显得栩栩如生、身临其境。
总而言之,该图像是森林中野餐的详细写实描绘,描绘了一名男子、一名女子、一名儿童和另一名男子,他们都穿着当时的服装,享受着悠闲的户外活动。野餐的布置包括毯子、食物和遮阳伞,所有这些都以郁郁葱葱的绿色植物为背景。”
有趣的是,在这第二次分析中,Janus-1.3B 识别出三个人物:只有一名男性、一名女性和一个孩子。它可能将坐着的女性识别为“孩子”(可能是因为她坐着时比其他人物矮),但也提到了坐着的女性的存在。这是我们之前在 Qwen2-VL-2B 对这幅画的描述中已经看到的一个错误,Qwen2-VL-2B 将图像中的“婴儿”识别了出来。图像中的孩子会坐在女性旁边,并且“拿着一把遮阳伞,这是 19 世纪户外活动的常见配饰。遮阳伞是打开的,为孩子遮蔽阳光”。这幅图像中没有打开的遮阳伞,而且“拿着遮阳伞是 19 世纪户外活动的常见配饰”的说法值得商榷。这种描述的积极之处在于,模型成功地将艺术品置于正确的时期,还提到“服装和场景表明这个场景是 19 世纪末或 20 世纪初的,当时野餐是一种流行的消遣方式”。值得注意的是,尽管是印象派风格,但图像仍被描述为“细致”和“写实”。对其余物体的描述也相当准确。
我们促使 Janus-1.3B 识别绘制这幅画的艺术家,问题是:“谁是绘制这幅图像的艺术家,它大约在何时绘制?”答案如下:“这幅图像是法国印象派画家皮埃尔-奥古斯特·雷诺阿的一幅画作复制品。这幅画名为《野餐》,绘制于 1877 年。”虽然日期几乎正确(误差十年左右),画名也确实正确地表明了画作的主题,但艺术家的名字不正确。但需要指出的是,雷诺阿也创作了非常相似的野餐场景描绘(事实上,他自己的《草地上的午餐》版本在英文翻译中被称为“野餐”)。野餐主题在当时实际上是一种趋势,在马奈的画作中也可见一斑。总而言之,考虑到模型能够将艺术家识别为法国印象派画家,这可以被认为是一个成功的成果。
Janus-1.3B 对莫奈的《草地上的午餐》的描述结果可能不如我们之前的例子准确,尤其是在识别和检测人物方面。这可能是因为人物比具象绘画中的人物细节较少,这可能导致模型产生误解。无论如何,它成功地表明这是一幅 19 世纪的印象派绘画。
分析瓦西里·康定斯基的《印象III(音乐会)》,1911 年,慕尼黑伦巴赫美术馆
本次艺术分析中,Janus-1.3B 分析的最后一幅图像是瓦西里·康定斯基的抽象画作《印象III(音乐会)》,我们之前曾在与 Florence-2-base 的研究中处理过。由于人物细节不清晰,几乎无法辨认,元素也很难处理和描述,这使得 Florence-2-base 在物体检测方面遇到了困难。它主要基于调色板进行分析。在尝试为图像添加标题时,它曾提到可能是花朵。当被要求检测物体时,它只是将整个图像识别为一幅画。
使用 Janus-1.3B,第一个结果是通过“解释这幅画”命令获得的。
"这幅画似乎是一件抽象表现主义作品。大胆、鲜明的色彩和松散的笔触运用表明其重点在于情感和表现力,而非写实再现。构图富有动感,各种形状和形式似乎相互作用并融为一体。色彩主要是黄色、红色、蓝色和黑色,并带有少量绿色和灰色点缀。整体效果是充满能量和动感,笔触营造出一种自发性和流畅感。这幅画并没有描绘特定的主题,而是通过其抽象的表现形式捕捉了色彩和形式的本质。"
尽管 Janus-1.3B 将这幅画与“抽象表现主义作品”联系起来,并描述了它的色彩和笔触,但它指出它“没有描绘特定的主题,而是通过其抽象的表现形式捕捉了色彩和形式的本质”。与 Florence-2-base 类似,它在识别图像中的元素方面存在困难,并将其描述集中在颜色上。在这种情况下,它甚至得出结论,图像中没有特定的主题。相反,当它分析康定斯基的另一幅抽象画时,Qwen2-VL-2B 曾试图解释图像中的元素——但没有成功,因为它将整幅画基于一个“火烈鸟”形象,这被误解为画作背面的天然粉红色元素。
给 Janus-1.3B 的第二个命令是“描述这幅画”,它回答了以下文本:
"这幅画作是一幅抽象艺术作品,其特点是色彩鲜艳、笔触松散且富有表现力。主色调包括黄色、红色、蓝色和黑色,这些颜色以一种有些混乱的方式运用,创造出动态而充满活力的构图。
左上角有一个大的圆形形状,呈黄色,可能代表太阳或光源。旁边有一些深色、不规则的形状,可以解释为抽象形式,或者可能是树木。这些形状以黑色和深蓝色调绘制,为构图增加了对比度和深度。
在画作的中心和右侧,有几组形状,类似花朵或斑点。这些斑点以各种颜色绘制,包括红色、蓝色和黄色,它们似乎以一种玩乐的方式相互作用。笔触大胆而富有表现力,给人一种运动和流畅的感觉。
画作的背景主要是黄色,营造出一种温暖而诱人的氛围。还有一些灰色和白色的斑块,增加了构图的复杂性和深度。
右下角有一个签名,写着“G. de Jong 1929”,表明了艺术家和画作创作的年份。
总的来说,这幅画是抽象艺术的生动而动态的代表,其特点是运用大胆的色彩、松散的笔触以及一种运动和能量感。”
在这段描述中,模型再次没有真正尝试定义或解释抽象元素。它将抽象的人形元素提及为潜在的“花朵”或斑点(花朵的描述与之前 Florence-2-base 获得的结果相似)。Janus-1.3B 仍然主要关注色彩,将画作总结为“一幅抽象艺术作品,其特点是色彩鲜艳、笔触松散且富有表现力。主色调包括黄色、红色、蓝色和黑色,这些颜色以一种有些混乱的方式运用,创造出动态而充满活力的构图”。描述的其余部分指出了图像中各种色彩、形状和笔触以及它所传达的印象:“这些斑点 [...] 似乎以一种玩乐的方式相互作用。笔触大胆而富有表现力,给人一种运动和流畅的感觉。背景 [...] 营造出一种温暖而诱人的氛围。还有一些灰色和白色的斑块,增加了构图的复杂性和深度”。美学和调色板描述是此分析的主要兴趣点,与 Janus-1.3B 经常出现的情况一样。即使指令没有要求,模型也转录了右下角的签名。然而,结果并不准确。对于 Janus-1.3B,签名读取为“G. de Jong 1929”,并指示“艺术家和画作创作的年份”。实际上,签名是“康定斯基”的名字,以程式化的手写体书写,以及日期“1911”,模型误读了。OCR 处理和转录,特别是手写内容和不寻常的单词/名称或外语,绝对是 Janus-1.3B 分析的主要问题之一。
给 Janus-1.3B 提出的最后一个问题是:“这幅画属于哪个运动?”。
它的答案如下:“这幅画似乎是一幅抽象表现主义作品。抽象表现主义的特点是运用大胆、姿态化的笔触,并专注于传达情感和内心体验,而不是写实再现。鲜艳的色彩和动态的形式是这种运动的典型特征。”
从艺术史的角度来看,Janus-1.3B 的回答是不正确的:抽象表现主义是二战后在美国兴起的一个运动,代表人物有杰克逊·波洛克、马克·罗斯科、克利福德·斯蒂尔等。这幅画所属的运动是 20 世纪初的抽象艺术的第一个运动。尽管如此,从美学角度来看,模型成功地将这幅画定位为抽象艺术品。毫无疑问,缺乏具象元素使得模型很难正确处理和识别这些元素。
结论
总之,这项关于 DeepSeek Janus-1.3B 处理、描述和解释艺术能力的研究揭示了几点。
在美学描述方面,该模型能够提供冗长、完整且准确的结果。这尤其体现在具象艺术作品中,但该模型仍然能够正确检测印象派和后印象派作品中的元素。当涉及到更具辨识度和著名的图像时,例如文森特·梵高的《星月夜》,Janus-1.3B 能够正确识别艺术品以及艺术家(正如 Qwen2-VL-2B 所做的那样)。然而,本次研究中发现的主要问题之一是模型无法正确处理和转录文本元素时遇到的困难。
正如我们在之前的研究中看到的那样,该模型在检测和理解文本元素方面存在困难,尤其是在手写和外语(例如,在此案例中,法语被误认为是拉丁语并被错误转录)的情况下。艺术品的视觉描述,尤其是拉斐尔的《雅典学院》和《贵妇与独角兽》挂毯,细节丰富,大部分完全准确——除了少量小错误和误解。描述中使用的词汇丰富而复杂,并使用了艺术描述中常见的词语和表达。该模型通常能成功找到艺术品的准确时期。
如果说 Janus-1.3B 对文本内容的分析明显不如 Qwen2-Vl-2B 成功,那么它的视觉分析则非常彻底和准确,而且错误往往很容易解释。
Janus-1.3B 的另一个主要用途是从文本生成图像。出于研究目的,在本次研究中也尝试从提示生成图像。在这种情况下,模型被要求生成文森特·梵高的《星月夜》,并给出了以下结果:
如果细节与原作不完全相同(这可能会让担心伪造的艺术专家感到安心),这表明 Janus-1.3B 在处理和理解艺术方面具有非常好的能力,无论是提供图像的文本解释还是反之亦然。
参考文献
- 安妮·德·布列塔尼大师(又名让·迪普雷),《独角兽夫人》(约 1500 年),克鲁尼博物馆,巴黎
- 拉斐尔(1483-1520),《雅典学院》(1509-1511),梵蒂冈城宗座宫
- 克劳德·莫奈(1840-1926),《草地上的午餐》(1865-1866),奥赛博物馆,巴黎
- 文森特·梵高(1853-1890),《星月夜》(1889),纽约现代艺术博物馆
- 瓦西里·康定斯基(1866-1944),《印象 III(音乐会)》(1911),慕尼黑莱姆巴赫之家