Mistral Pixtral 12B 的艺术分析
引言
此前对 VLM 多模态模型(如 Microsoft Florence-2-base、阿里巴巴云计算 Qwen2-VL-2B 和 DeepSeek Janus-1.3B)艺术能力的研究表明,虽然这些模型分析和解释艺术作品的结果可能成功,但仍存在一些错误。这些错误是由于模型在理解艺术作品的上下文或其幻觉倾向方面的困难造成的。例如,Qwen2-VL-2B 的艺术分析结果甚至看到了不存在的物体和人物,尽管它正确识别了绘画名称和艺术家,如文森特·梵高(Vincent Van Gogh)的《星月夜》(The Starry Night)或克劳德·莫奈(Claude Monet)的《印象·日出》(Impression, Sunrise)。
Pixtral 12B 于 2024 年 9 月 17 日发布,是首个采用 Apache 2.0 许可证的 Mistral 多模态模型。Pixtral 拥有一个从头开始训练的 4 亿参数视觉编码器和一个基于 Mistral Nemo 的 120 亿参数多模态解码器,支持在 128k 令牌的长上下文窗口中处理多幅图像。根据 mistral.ai 网站的说明:
“Pixtral 经过训练,能够理解自然图像和文档,在 MMMU 推理基准测试中达到了 52.5% 的准确率,超越了许多更大的模型。该模型在图表和图形理解、文档问答、多模态推理和指令遵循等任务中表现出强大的能力。Pixtral 能够以其原始分辨率和长宽比摄取图像,为用户提供了处理图像所用令牌数量的灵活性。Pixtral 还能够在其 128K 令牌的长上下文窗口中处理任意数量的图像。与以前的开源模型不同,Pixtral 不会为了在多模态任务中表现出色而牺牲文本基准性能。”
这项新研究的目的是观察使用 Pixtral 12B 处理艺术品所获得的结果,以评估其能力,并将其与使用其他模型获得的结果进行比较,因为本研究中使用的所有艺术品与我们之前使用其他 VLM 模型进行研究时使用的艺术品完全相同。
拉斐尔《雅典学院》(1509-1511 年,梵蒂冈城宗座宫)分析
我们使用 Pixtral 12B 处理了拉斐尔的《雅典学院》。
以下是使用提示“解释图像”得到的结果,没有添加任何与壁画或其艺术家相关的信息、上下文或元素:
“该图像描绘了一幅名为《雅典学院》的详细壁画,由意大利著名艺术家拉斐尔创作。这幅杰作是梵蒂冈宗座宫拉斐尔室的一部分。壁画的主要元素包括:
- 中心人物:构图的中心是两个正在行走和交谈的突出人物。他们传统上被认为是柏拉图(左,手向上举起)和亚里士多德(右,手水平伸出)。他们被其他著名哲学家和学者环绕。
- 建筑背景:场景设置在唤起古典希腊和罗马风格的建筑框架中,有柱子、拱门和细致的装饰。背景有一扇通往另一座建筑的大拱门,为构图增加了深度。
- 周围人物:描绘了许多从事各种活动的人物,如阅读、写作和交谈。他们身着古典服饰,强调了古代哲学和学习的主题。
- 雕塑和装饰:壁画的下部包括装饰元素和雕像,增加了场景的宏伟和古典美学。
- 透视:透视的使用营造出深度和三维感,将观众的目光吸引到场景中。人物的排列方式引导观众的目光穿过画作。《雅典学院》是对古典哲学和学习的颂扬,体现了文艺复兴时期人文主义和追求知识的理想。它被认为是盛期文艺复兴艺术最重要的作品之一。”
Pixtral 对《雅典学院》的分析显示出令人难以置信的准确性,尤其是与 Florence-2-base(它混淆了人物和雕像)以及 Qwen2-VL-2B(它难以准确描绘壁画中显示的精确活动)相比。即使 Janus-1.3B 能够将这幅画定义为文艺复兴时期艺术家的作品,Pixtral 甚至能够正确识别出这幅艺术品的准确名称和艺术家。该描述非常冗长,使用了艺术史描述中常见的词汇,清晰、精确且高度准确,识别出哲学家的名字,识别出他们的活动(“强调古代哲学和学习的主题”),并充分分析了透视的使用。
瓦西里·康定斯基(Wassily Kandinsky)《田园牧歌》(1911),所罗门·R·古根海姆博物馆,纽约
我们用 Pixtral 提示“解释图像”的第二幅艺术品是康定斯基的抽象作品。得到的结果非常有趣……
Pixtral 提供的第一批结果如下:
“这张图片似乎是对古典绘画的现代抽象诠释。被引用的原作似乎是拉斐尔的《雅典学院》,这从图像下部的建筑元素和人物组合中可以看出来。然而,这个版本已经被高度抽象化,并覆盖了鲜艳、旋转的色彩。图像的主要特征包括:
- 色彩覆盖:这幅画被明亮、抽象的色彩覆盖,包括黄色、绿色、蓝色、粉色和其他色调。这些色彩创造出一种动态而充满活力的视觉效果,掩盖了许多原始细节。
- 建筑元素:尽管经过抽象处理,古典建筑元素的残余,如拱门和柱子,仍然可见,暗示着原始场景的背景。
- 人物:图像下部保留了一些可识别的人形,尽管它们被色彩覆盖物部分遮挡。这些人物似乎参与了各种活动,与原作中哲学论辩和学习的主题一致。
- 构图:整体构图是圆形的,色彩抽象创造出一种从中心向外辐射的运动感和能量。这种抽象诠释可能旨在将古典的学习和哲学主题与现代、富有表现力的风格并置,创造出一件视觉上引人注目且发人深思的作品。”
康定斯基《田园牧歌》的整体描述似乎是基于(因此,偏向于)模型之前处理的艺术品。从这个幻觉的设定,暗示康定斯基创作这幅作品是对《雅典学院》的诠释,Pixtral 展开了一系列参考文献,反映了两幅艺术品之间的元素,并比较了原版和其“抽象”版本。事实上,康定斯基对自然景观中一组人物的抽象表现被 Pixtral 误解为对古典建筑元素的“重新诠释”,表明康定斯基的画作中有“拱门”和“柱子”。该模型甚至将人物群解释为“从事各种活动的人物,与原作中哲学论辩和学习的主题一致”。虽然美学描述更准确,在色彩分析中,Pixtral 推进了它的理论,认为这幅艺术品是拉斐尔文艺复兴壁画的新版本,认为它“旨在将古典的学习和哲学主题与现代、富有表现力的风格并置,创造出一件视觉上引人注目且发人深思的作品”。
由于结果似乎不如预期准确,受到了 Pixtral 之前对《雅典学院》分析的影响,我们重新加载了页面并第二次处理了同一幅画——想知道模型的解释是否会相同。
以下是 Pixtral 对《田园牧歌》的第二次描述:
“该图像是一幅抽象画,其特点是大胆、鲜艳的色彩和动态的笔触。构图具有各种形状和形式,包括圆形、有机的形式和更具棱角、几何的元素。调色板以黄色、蓝色、粉色、绿色和红色等明亮色调为主,这些颜色用于营造能量和动感。这幅画的中心似乎集中在抽象的自然形式上,可能代表花朵或叶子,有些区域暗示着花瓣或叶子。重叠的形状和对比色的使用赋予艺术品深度和复杂性。整体风格和技巧暗示了表现主义或野兽派的影响,它们以强调情感冲击和鲜艳色彩而闻名。这幅画的中心似乎集中在抽象的自然形式上,可能代表花朵或叶子,有些区域暗示着花瓣或叶子。重叠的形状和对比色的使用赋予艺术品深度和复杂性。整体风格和技巧暗示了表现主义或野兽派的影响,它们以强调情感冲击和鲜艳色彩而闻名。右下角可见“Dubuffet”签名,表明艺术家是让·杜布菲(Jean Dubuffet),一位以其原始、粗犷风格及其对原生艺术运动的贡献而闻名的法国艺术家。”
第二个结果在美学上是准确的,因为 Pixtral 没有再次将这幅画误解为对拉斐尔的致敬。对自然元素和色彩的描绘,辨认出物体中的花朵,更加正确。话虽如此,这幅画错误地将艺术家识别为“原生艺术运动”的“让·杜布菲”,这并非事实。至于风格和技巧暗示“表现主义或野兽派的影响”的说法,并非完全错误,因为康定斯基的作品可能受到这些艺术运动的影响。
安妮·德·布列塔尼大师(又名让·迪普雷)的《独角兽夫人》挂毯(约 1500 年),克鲁尼博物馆,巴黎
我们用 Pixtral 分析的第三件艺术品是一件中世纪挂毯,我们之前在研究中已经用其他模型处理过。
以下是使用“解释图像”提示得到的结果:
“该图像描绘了一幅精细华丽的挂毯,这是一种常用于装饰目的的纺织艺术形式。挂毯以色彩丰富、设计复杂的图案为特色,包含多种元素和人物。挂毯的主要特点包括:中心人物:画面中央有几个人物,可能代表历史或神话人物。他们身着华丽的服饰,暗示着一个重大事件或故事的场景。动物:围绕中心人物的是各种动物,包括似乎是狮子和其他神话生物。这些动物以程式化的方式描绘,为挂毯的整体奇幻氛围增添了色彩。背景和图案:背景充满了复杂的图案和设计,包括花卉图案和可能的纹章符号。红色和蓝色主导了背景,营造出一种充满活力和动感的场景。旗帜和横幅:场景中存在旗帜和横幅,其中一些带有铭文或徽章。这些元素增加了仪式或庆祝活动的感觉。”
与 Florence-2-base(包含多处不准确之处,包括多次尝试后仍无法检测到独角兽的存在)以及 Qwen2-VL-2B 和 Janus-1.3B 更为全面准确的描述相比,Pixtral 给出的分析简洁而准确。该模型成功识别出多个人物的存在,包括“神话人物”。Pixtral 的美学描述正确而精确,描述了纹章符号、花卉图案以及铭文和徽章。对“仪式或庆祝活动”的解释并非完全正确,但可以理解哪些元素导致模型得出这一理论。模型注意到了神话和奇幻元素的存在,但它没有指出艺术品中独角兽的存在,尽管它确实识别出了狮子的形象。Pixtral 没有定义历史时期。
克劳德·莫奈《草地上的午餐》(1865-1866 年),奥赛博物馆,巴黎
为了评估 Pixtral 的艺术分析能力,我们还让模型处理并解释了克劳德·莫奈 1865-1866 年的《草地上的午餐》。
这是 Pixtral 提供的描述:
“该图像是一幅抽象画,似乎描绘了一个森林场景。这幅画的特点是使用鲜艳的色彩和动态的笔触,营造出一种深度和动感。这幅画的主要特征包括:
- 森林元素:画中突出地描绘了树木和树叶,以各种绿色调表现。树木以厚重、有质感的笔触描绘,使场景具有一种密度和自然感。
- 人物:森林场景中融入了几个人物。这些人物是程式化和抽象的,形式简化,细节极少。他们似乎参与了各种活动,可能代表着一场公共或仪式性事件。
- 调色板:这幅画使用了丰富的绿色、棕色和其他大地色调,以及点缀着红色和蓝色等更明亮的颜色。这些颜色有助于作品的整体活力和能量。
- 构图:构图平衡,森林元素和人物分布在画布上。色彩和形式的运用创造出一种深度和透视感,将观众的目光吸引到场景中。
- 风格:这幅画的风格让人联想到表现主义或抽象表现主义,其特点是强调情感和主观诠释而非写实表现。厚重、可见的笔触和大胆的色彩是这些运动的典型特征。总的来说,这幅画捕捉了森林场景的精髓,重点在于自然与人类活动之间的相互作用,运用抽象和表现主义技法来传达其主题。”
让我们回顾一下:当 Florence-2-base 处理同一幅画时,它只进行了相对较少的物体检测,将坐着的人物误认为是物体,将桌布和地上的食物误认为是桌子。而 Qwen2-VL-2B 则正确地定义了正确的时期(19 世纪后期,根据所穿的衣服判断)和场景,但该模型确实出现了一些幻觉——例如,指出了画中根本没有出现的“孩子”。Janus-1.3B 对这幅艺术品的描述也类似——或多或少准确,并且找到了正确的时期,但再次指出了人物群中存在一个“孩子”,并将其解释为看起来“高度逼真”的作品——这与莫奈的绘画风格并不完全相符。相比之下,Pixtral 的美学描述是准确的,但包含一些错误。Pixtral 对色彩的分析做得很好,对森林场景和人物的描述也很正确。将风格解释为“强调情感和主观诠释而非写实表现。厚重、可见的笔触和大胆的色彩是这些运动的典型特征”,并得出结论“这幅画捕捉了森林场景的精髓,重点在于自然与人类活动之间的相互作用,运用抽象和表现主义技法来传达其主题”,这表明 Pixtral 具有分析绘画风格、笔触和整体艺术内容的高度能力。另一方面,模型将这幅艺术品解释为“让人联想到表现主义或抽象表现主义”——这些艺术运动直到几十年后才出现——这表明 Pixtral 在艺术分析中仍然存在一些错误。
瓦西里·康定斯基《印象 III(音乐会)》(1911 年),慕尼黑莱姆巴赫之家
为了这项研究的目的,我们用 Pixtral 处理了瓦西里·康定斯基的另一幅抽象作品。
在这种情况下,这幅艺术品是《印象 III(音乐会)》,Florence-2-base 和 Janus-1.3B 已经对其进行了分析。这两个模型的分析结果都表明,VLM 模型目前在分析抽象艺术内容方面存在困难。如果它们都试图识别这幅艺术品的主题,那么结果至少是不准确的——抽象人物在某些情况下被解释为花朵。
以下是 Pixtral 获得的结果:
“该图像是一幅抽象画,其特点是大胆、鲜艳的色彩和动态的笔触。主导背景色是明亮的黄色,作为各种抽象形状和形式的背景。画作的主要特征包括:调色板:画作使用了鲜明的调色板,以突出的黄色、红色、蓝色和黑色为主。这些颜色以厚重、可见的笔触涂抹,使画作呈现出有质感和充满活力的外观。形状和形式:画作包含多种抽象形状和形式,包括:右上角有一大片深绿色或黑色区域。左上角有红色和黄色区域。中心有蓝色和黑色的线条和形状。一系列弯曲的黑色线条和形状,类似于程式化的人物或符号。构图:构图平衡但动态,各种元素分布在画布上。色彩和形式的运用营造出一种运动感和能量。签名:右下角,画作签名为“Kandinsky 1911”,表明它是著名抽象艺术家瓦西里·康定斯基于 1911 年创作的作品。总的来说,该画作体现了康定斯基早期的抽象风格,其特点是富有表现力地运用色彩和形式来传达情感和运动。”
Pixtral 对康定斯基《印象 III(音乐会)》的分析显然是最成功的。该模型能够识别出艺术家的名字,并从分析和正确转录签名中识别出绘画的日期——Florence-2-base 和 Janus-1.3B 在识别康定斯基为该特定示例的艺术家时都失败了。对形状和形式的美学描述非常准确。该模型试图提供对绘画的解释,并将其置于康定斯基的职业生涯中,指出它“体现了康定斯基早期的抽象风格,其特点是富有表现力地运用色彩和形式来传达情感和运动”。有趣的是,尽管其色彩理论考虑周全,但 Pixtral 并未对场景中的抽象元素提供真正的具体解释。
文森特·梵高《星月夜》(1889 年),纽约现代艺术博物馆
我们用 Pixtral 处理的最后一幅用于本次艺术研究的绘画是文森特·梵高的标志性作品《星月夜》。
这幅画之前已由我们先前研究中使用的所有三个模型进行处理。虽然 Qwen2-VL-2B 和 Janus-1.3B 成功识别出画作的名称及其艺术家,但仍存在一些不准确之处——这可能是由于梵高近乎抽象的表现风格使其更难理解。鉴于此,结果是积极的。如果存在一些幻觉(Janus-1.3B 将描绘的村庄解释为梵高的故乡),那么美学和物体描述是正确的,特别是对于 Qwen2-VL-2B 而言。
以下是 Pixtral 获得的结果:
“该图像是一幅抽象画,其特点是鲜艳的色彩和动态的笔触。这幅画似乎描绘了一个自然场景,可能是风景,重点在于光线和色彩的相互作用。画作的主要特征包括:
- 调色板:画作使用了丰富的调色板,以蓝色、绿色和黄色为主。这些颜色以厚重、可见的笔触涂抹,使画作呈现出有质感和充满活力的外观。
- 光线和运动:漩涡状和弯曲的线条的使用营造出一种运动感和能量,暗示了风景中光线和氛围的动态性质。笔触似乎捕捉了自然元素的流动性和活力。
- 构图:构图平衡,各种元素分布在画布上。画作中央区域有密集的、重叠的笔触,可能代表树木或树叶,右侧有更开放、更明亮的区域,可能象征天空或水体。
- 风格:这幅画的风格让人联想到表现主义或抽象表现主义,其特点是强调情感和主观诠释而非写实表现。厚重、可见的笔触和大胆的色彩是这些运动的典型特征。
- 签名:右下角,画作签名为“Kandinsky 1911”,表明它是著名抽象艺术家瓦西里·康定斯基于 1911 年创作的作品。总的来说,该画作捕捉了自然风景的精髓,重点在于光线和色彩的表现力和动态特质,运用抽象和充满活力的技法来传达其主题。”
Pixtral 在分析完康定斯基 1911 年的画作后立即处理了梵高的《星月夜》,这似乎导致了理解问题。事实上,对“自然场景”中元素(如树木、树叶、天空等)的描述是正确的,对笔触和色彩的解释也是如此。但幻觉开始于 Pixtral 再次提到这幅画是康定斯基于 1911 年签署的,正如右下角的签名所示(?)。尚不清楚是分析做得太快,还是模型在图像和描述中混淆了。但它将其解释为——再次——“表现主义或抽象表现主义”的回响(这似乎是 Pixtral 最喜欢的两个艺术运动)在任何情况下都是错误的。
我们重新启动系统后,再次运行了相同的“解释图像”提示,以查看结果是否会有所不同。
确实,Pixtral 在第二轮中生成的描述如下:
“该图像是文森特·梵高创作的名为《星月夜》的画作。这幅艺术品是他最著名的作品之一,以其漩涡状、充满活力的天空而闻名,天空布满星星和一弯新月。天空以鲜艳的蓝色、黄色和白色为主,营造出一种动感和能量。天空下方,左侧有一棵深色高大的柏树,与明亮的天空形成鲜明对比。画作的下部有一个小村庄,里面有房屋和一座带有高尖顶的教堂。村庄描绘了一系列屋顶和几棵树,给人一种宁静祥和的聚落感。整体构图和色彩运用营造出一种和谐与平衡感,使《星月夜》成为一幅永恒的后印象派艺术杰作。”
尽管描述简短得多,但现在完全准确且更加精确。Pixtral 正确识别了艺术家的名字、画作标题以及艺术品中所有元素的描述。将画作解释为“一幅永恒的后印象派艺术杰作”表明 Pixtral 具有极高的艺术分析和处理能力——并且也更加准确。
结论
总结本研究,我们可以证实 Pixtral 12B 确实在处理、分析和描述艺术作品方面具有巨大潜力。分析过程中的主要问题是幻觉风险,当两幅艺术品在极短时间内连续分析时,这种风险会更高。在这种情况下,模型似乎在两幅图像和描述之间高度混淆,要么融入了错误的解释(例如,将康定斯基的《田园牧歌》误解为拉斐尔《雅典学院》的抽象版本),要么将一幅艺术品误认为是另一幅——例如,在分析完康定斯基 1911 年的画作后,它声称《星月夜》是康定斯基于 1911 年绘制的。
Pixtral 12B,与 Florence-2-base、Qwen2-VL-2B 和 Janus-1.3B 一样,倾向于基于其先前的知识产生误解和偏见,从而导致幻觉:例如,在处理抽象艺术品时,它无缘无故地指出该作品是“让·杜布菲”创作的。
Pixtral 使用的艺术史词汇以及对美学和色彩的描述总体上都非常准确。
总而言之,Pixtral 12B 在艺术分析方面具有巨大潜力,未来研究中探究其分析图像中文字元素的能力,并将其结果与同一任务的其他模型进行比较,将是非常有趣的。
参考文献
- 安妮·德·布列塔尼大师(又名让·迪普雷),《独角兽夫人》(约 1500 年),克鲁尼博物馆,巴黎
- 拉斐尔(1483-1520),《雅典学院》(1509-1511),梵蒂冈城宗座宫
- 克劳德·莫奈(1840-1926),《草地上的午餐》(1865-1866),奥赛博物馆,巴黎
- 文森特·梵高(1853-1890),《星月夜》(1889),纽约现代艺术博物馆
- 瓦西里·康定斯基(1866-1944),《印象 III(音乐会)》(1911),慕尼黑莱姆巴赫之家
- 瓦西里·康定斯基(1866-1944),《田园牧歌》(1911),所罗门·R·古根海姆博物馆,纽约