深入探究 Aya Vision:推进多语言多模态前沿
随着 Aya Vision 系列(我们新的 8B 和 32B 参数视觉-语言模型(VLM))的发布,我们正在解决人工智能领域最大的挑战之一:将多语言性能引入多模态模型。
Aya Vision 是 Cohere For AI 最新的开源多语言多模态模型系列,旨在为跨 23 种语言的语言和视觉理解提供强大的基础。它建立在 Aya Expanse(最先进的多语言语言模型)的成功基础上,并结合先进技术对其进行了扩展。这些技术包括合成注释、通过翻译和改写扩展多语言数据,以及多模态模型融合——这些都是在多语言环境中改进语言和视觉理解的关键方法。
因此,我们的模型在各种任务中表现出色,包括图像字幕、视觉问答、文本生成以及将文本和图像翻译成清晰自然的语言文本。我们在一组数据集上评估了 Aya Vision 模型,包括我们新的开放式视觉-语言基准测试 AyaVisionBench,以及 Wild Vision Bench 的多语言版本(mWildVision),该版本被翻译成 23 种语言,我们将其全部发布供研究使用。
在配对比较中,Aya Vision 32B 的胜率超过了其两倍大小的模型,例如 Llama-3.2 90B Vision、Molmo 72B 和 Qwen2.5-VL 72B,在 AyaVisionBench 上的胜率范围为 50% 到 64%,在 mWildVision 上平均跨 23 种语言的胜率范围为 52% 到 72%。
我们紧凑高效的 Aya Vision 8B 模型在其参数类别中实现了多语言多模态的最佳性能,在 AyaVisionBench 上胜率高达 79%,在 mWildBench 上胜率高达 81%,超越了 Qwen2.5-VL 7B、Pixtral 12B、Gemini Flash 1.5 8B、Llama-3.2 11B Vision、Molmo-D 7B 和 Pangea 7B 等领先模型。
我们发布了 8B 和 32B 模型作为开源权重,供研究社区进一步加速多语言多模态的进展。在这篇博文中,我们分享了 Aya Vision 模型背后的关键技术细节。
Aya Vision 架构与训练
对于高性能的视觉-语言模型,处理任意分辨率的图像,尤其是高分辨率图像,非常重要。为了让 Aya Vision 具备此能力,我们动态调整大小并将任意高分辨率图像分割成多个块,以从图像编码器生成丰富的图像特征。在 Aya Vision 模型中,我们使用最近发布的 SigLIP2-patch14-384 模型作为视觉编码器的初始化。
虽然动态调整大小可以处理高分辨率图像,但它也导致通过视觉-语言连接器和 LLM 解码器的图像标记数量增加。为了提高延迟和吞吐量,我们使用了一种名为 Pixel Shuffle 的下采样方法,将图像标记的数量压缩 4 倍。下采样后,图像标记通过视觉-语言连接器与语言模型输入嵌入对齐,并传递给 LLM 解码器。
对于文本解码器,我们使用我们的多语言语言模型。对于 Aya Vision 8B,我们使用一个从 Cohere Command R7B 初始化的 LLM,以改进指令遵循和世界知识,并使用包含多样化多语言数据、模型合并和偏好训练的 Aya Expanse 配方进行进一步的后训练。对于 Aya Vision 32B,我们根据其最先进的多语言性能,从 Aya Expanse 32B 初始化语言模型。
训练过程
我们分两个阶段训练了 Aya Vision 模型——视觉-语言对齐和监督微调 (SFT)。在视觉-语言对齐阶段,只训练视觉-语言连接器,而视觉编码器和语言模型权重保持冻结。这通过将图像编码器特征映射到语言模型嵌入空间,实现了基本的视觉-语言理解。在 SFT 阶段,我们在 23 种语言的多种多模态任务上训练连接器和语言模型。
多模态数据增强与语言覆盖扩展
开发多语言视觉-语言模型面临的最大挑战之一是确保在代表性不足的语言中也能实现强大性能。为解决这个问题,我们首先使用各种高质量的英语数据集收集合成注释,这为我们的多语言多模态注释奠定了基础。在对英语数据集进行合成注释后,我们将大量数据翻译成 23 种语言。为了避免翻译伪影并保持答案中流畅且高精度的文本特性,我们随后通过将翻译后的提示/生成对与原始高质量合成样本进行匹配来重新措辞,从而在实际数据集稀缺的情况下扩展语言覆盖范围。这既提高了语言流畅性,也改进了视觉和文本之间的对齐,使 Aya Vision 能够在多种语言中展现卓越的图像理解能力。
我们的 8B 模型在仅使用原始学术数据集进行监督微调时,在 AyaVisionBench 上与多语言 VLM Pangea 7B 相比,在 23 种语言中达到 40.9% 的胜率,而合成注释和多语言数据扩展使胜率达到 58.1%,提高了 17.2%。这一显著的改进表明了对多语言数据覆盖的大量投入所产生的影响。
多模态模型融合
一个最先进的视觉-语言模型不仅应在图像理解方面表现出色,还应在会话语境中表现出色,即模型应能对图像和文本输入生成高质量的响应。为解决此问题,受我们之前模型融合研究的启发(一种结合多个训练模型的技),我们融合了基础语言模型和微调后的视觉-语言模型。
模型融合增强了我们最终模型的生成能力,使得在 AyaVisionBench 上,AyaVision 模型的胜率在 23 种语言中达到 70%,与融合前的模型相比,多模态胜率提高了 11.9%。
多模态模型融合还使我们的 Aya Vision 模型在 mArenaHard 数据集上的纯文本任务中表现出色,优于其他领先的视觉-语言模型。
扩展至 32B
最后,我们将我们的模型从 8B 扩展到 32B,从而产生了最先进的开源多语言视觉-语言模型——Aya Vision 32B,由于文本骨干的更强初始化,其胜率显著提高,并且在 AyaVisionBench 上以 49% 到 63% 的胜率,以及在 mWildVision 上平均跨 23 种语言以 52% 到 72% 的胜率,超越了其两倍大小的模型,例如 Llama-3.2 90B Vision、Molmo 72B 和 Qwen2.5-VL 72B。
Aya Vision 基准测试——多语言评估数据
除了 Aya Vision 模型,我们还发布了一个高质量的多语言视觉-语言基准测试数据集 AyaVisionBench,该数据集基于实际应用构建,涵盖 23 种语言和 9 个不同的任务类别,每种语言包含 135 对图像-问题。
我们将这个评估集提供给研究社区,以推动多语言多模态评估的进展。该数据集旨在评估模型执行多种视觉-语言任务的能力,包括图像字幕、图表理解、识别两幅图像之间的差异、通用视觉问答、OCR、文档理解、文本转录、涉及逻辑和数学的推理,以及将屏幕截图转换为代码。通过整合多种语言和任务类型,该数据集为评估跨语言和多模态理解提供了一个广泛且具有挑战性的评估框架。
为了创建这个数据集,我们首先从 Cauldron 留存测试集中选择图像,这是一个由 50 个高质量数据集组成的大型集合,确保它们在训练期间从未出现过。对于每张图像,我们随后生成了一个相应的问,明确要求视觉上下文才能回答。这些问题是合成生成的,并通过两阶段验证过程进行完善。首先,人工标注员审查并验证每个问题,以确保其清晰、相关且确实依赖于图像。这种严格的选择和验证过程确保该数据集可以作为在多语言和现实世界环境中评估视觉-语言模型的稳健基准。
专为实际应用设计
沟通以多种形式和多种语言进行。凭借我们领先的研究和开发,我们发布了一个模型,今天可以在 23 种不同的语言中促进文本或视觉形式的连接。
Aya Vision 具有广泛的实际应用,其中一个显著的例子是它在 WhatsApp 上的可用性,WhatsApp 是世界上使用最广泛的通信平台之一。这使得全球大量使用多种语言的公民能够在他们每天使用的平台上利用 Aya Vision 的功能。
Aya 入门
开始使用
从 Hugging Face 上的 Aya Vision 系列下载权重和数据集。
使用我们的 Hugging Face Space 试用 Aya Vision 或在 Whatsapp 上向其发送文本
使用我们的 colab 示例构建 Aya。
了解更多关于我们正在进行的多语言工作。
致谢
这项工作离不开 Aya Vision 核心技术团队的努力:
Saurabh Dash、Oliver Nan、John Dang、Arash Ahmadian Dehkordi、Shivalika Singh、Alejandro Salamanca、Bharat Venkitesh、Vlad Shmyhlo、Walter Beller-Morales、Jeremy Pekmez、Jason Ozuzu、Madeline Smith、Marzieh Fadaee、Manoj Govindassamy、Sudip Roy、Matthias Gallé、Beyza Ermis、Ahmet Üstün、Sara Hooker。
这项工作也离不开更广泛的 Cohere For AI 和 Cohere 团队在许多不同方面的支持。特别感谢 Sungjin Hong、Michael Kozakov、Pierre Richemond、Brittawnya Prince、Jim Payne、Kyle Lastovica、Jeff Colen、Jenna Cook、Viraat Aryabumi、Trent Fowler、Linus Chui、Meor Amer、Lucas Fayoux、Kyle Lastovica、Billy Trend、Acyr Locatelli、Morgan Norman、Florian Strub、Jon Ander Campos、Nick Frosst、Phil Blunsom、Aidan Gomez、Ivan Zhang。
特别感谢 Hugging Face 在促成这项工作方面的帮助:Yoni Gozlan、Arthur Zucker、Pedro Cuenca、Aritra Roy Gosthipaty、Merve Noyan、Vaibhav Srivastav。
参考文献
[1] Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier
[2] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
[3] WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences
[4] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
[5] What matters when building vision-language models?
[6] Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
[7] How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites