Visual Salamandra:突破多模态理解的界限

社区文章 发布于2025年4月11日

语言技术实验室发布了 Visual Salamandra,将Salamandra大型语言模型(LLM)的功能扩展到图像和视频,从而在多模态人工智能领域迈出了重要一步。Visual Salamandra 基于 70 亿参数的基础模型,在保持其紧凑性和效率的同时,将其扩展到多模态任务。

Visual Salamandra 以视觉-语言对齐为核心,在Salamandra Instructed 7B模型的基础上,集成了谷歌的SigLIP编码器(SigLIP-So400m)、一个2层MLP投影仪和先进的后期融合技术,以弥合视觉和文本模态之间的差距。

由此产生的架构使Visual Salamandra能够理解并从各种输入(从单张和多张图像、视频到纯文本指令)中生成上下文准确的响应。这一发展反映了实验室对支持强大、多语言和多模态人工智能系统(特别是那些优先考虑欧洲语言多样性的系统)的更广泛承诺。

训练Visual Salamandra:深入探讨视觉实验

为了使Salamandra适应视觉输入,实验室实施了以后期融合架构为中心的四阶段训练过程。在此设置中,预训练的图像编码器(SigLIP,384x384分辨率下14个补丁)生成图像嵌入,然后通过自定义训练的多层感知器(MLP)投影仪与LLM对齐。

四个训练阶段包括

阶段1:投影仪预训练——仅训练投影仪,将图像特征映射到LLM的潜在空间。

阶段2:高质量视觉预训练——使用精炼的数据集(例如,OCR和重新标注的图像),对整个架构(编码器、投影仪和LLM)进行联合训练。

阶段3:指令调优——模型通过视觉问答(VQA)、OCR和其他基于视觉的任务学习遵循用户指令。

阶段4:全多模态调优——包含单/多图像和视频数据,以及纯文本示例,以优化模型对真实世界、多输入场景的泛化能力。

数据多样性在整个训练过程中发挥了关键作用。总共使用了610万个指令调优实例,其中包括84.2万个纯文本样本。训练语料库的数据来源于AI2D、Cambrian和LLaVA Next等,旨在增强视觉定位、文档理解、数学推理和OCR能力。

image/png

图1. Visual Salamandra 7B训练过程中的数据分布

多语言数据和欧洲语言表示

与语言技术实验室之前的模型一样,Visual Salamandra 继续致力于 多语言包容性,并重点关注欧洲语言。

这种方法确保了弱势语言能够受益于指令调优和与视觉任务的对齐,有助于弥合多模态人工智能研究中的资源差距。Visual Salamandra是此类模型中最早将这种语言多元性整合到 多模态指令调优框架中的模型之一。

image/png

图2. 使用文本正则化训练并与原始骨干LLM合并的模型的多语言生成示例。

应用和未来方向

Visual Salamandra 在语言和视觉的交叉领域解锁了广泛的应用,例如:

• 视觉问答(VQA):询问图像或视频的问题,并接收上下文感知、准确的回答。

• 光学字符识别(OCR):准确读取和转录文档、场景和图表中的文本。

• 文档和图表理解:分析带有嵌入文本的复杂视觉文档或图形内容。

• 数学推理:通过多模态推理解决基于视觉的数学问题。

• 基于指令的图像交互:遵循视觉环境中的详细指令,包括图像描述和定位任务。

视频功能的加入也为视频摘要、事件检测和多模态叙事方面的进一步发展打开了大门......

通过 Visual Salamandra,语言技术实验室展示了其在创建包容性、高性能基础模型方面的持续领导地位。通过将最先进的视觉编码器与强大的多语言 LLM 相协调,该团队正在为下一代人工智能系统奠定基础,使其能够跨模态和语言进行观察、理解和交流。

伦理问题和局限性

虽然 Visual Salamandra 展现出强大的多模态能力,但仍需注意其局限性:

• 它可能会出现合理但错误的幻觉,尤其是在视觉输入模糊时。

• 在复杂的OCR和密集文档布局上的性能仍然具有挑战性。

• 该模型使用经过筛选和许可的数据集进行训练,但用户仍应警惕潜在的偏见或不准确性,特别是在敏感应用中部署时。

我们建议在有人工监督的情况下使用 Visual Salamandra,并避免未经适当评估的高风险应用。

Visual Salamandra 在 Apache许可证2.0版下发布,允许用于研究和非商业用途。

请继续关注未来基于 Visual Salamandra 的发布和工具,并在 我们的论文中探索完整的模型细节。

image/png

语言技术实验室团队

致谢

这项工作得到了数字化转型与公共职能部的支持和资助,以及“恢复、转型和弹性计划”——由欧盟通过NextGenerationEU资助,在语言模型项目框架内进行。

社区

注册登录 发表评论