推出 Command A Vision:专为企业打造的多模态 AI

今天我们推出 **Command A Vision**:一款拥有开放权重的尖端视觉-语言模型。Command A Vision 在多模态视觉任务中表现出色,同时保持了 Command A 强大的文本能力。作为 Cohere 最新旗舰模型,Command A Vision 是一个基于 Command A 构建的 112B 密集模型。我们很荣幸在此发布其权重给社区。
Command A Vision 赋能企业通过文档光学字符识别(OCR)和图像分析,自动化繁琐任务,从视觉数据中获取有价值的洞察,并做出高度准确、数据驱动的决策。无论是解释带有复杂图表的产品手册,还是分析现实世界场景的照片进行风险检测,Command A Vision 都擅长应对最严苛的企业视觉挑战。
指标
Command A Vision 在标准视觉基准测试中表现出领先的多模态性能,超越了 GPT 4.1、Llama 4 Maverick、Mistral Medium 和 Pixtral Large 等模型。我们选择了九个多样化的基准测试,既代表了典型的企业用例,也代表了通用的标准学术评估。Command A Vision 在图表、文档和 OCR 分析方面表现出特别的优势,同时在 MathVista 等数学或原型推理评估中也表现出色(73.5%)。总的来说,如以下表格所示,它超越了领先的非思维视觉-语言模型。(注:当其他提供商报告或公共排行榜中没有数据时,缺少的数据通过内部尽力评估(通常通过 VLMEvalKit)进行补充。)
模型 | 图表问答 | 信息视觉问答 | AI2D | MMMU (CoT) | MathVista | 文档问答 | 文本视觉问答 | OCRBench | 真实世界问答 | 平均 |
---|---|---|---|---|---|---|---|---|---|---|
Command A Vision | 90.9% | 82.9% | 94.0% | 65.3% | 73.5% | 95.9% | 84.8% | 86.9% | 73.6% | 83.1% |
GPT-4.1 (2025-04-14) | 82.7% | 70.0% | 86.5% | 74.8% | 72.2% | 88.6% | 71.1% | 83.4% | 78.0% | 78.6% |
Pixtral Large | 88.1% | 59.9% | 93.8% | 64.0% | 69.4% | 93.3% | 79.3% | 74.1% | 69.3% | 76.8% |
Mistral Medium 3 | 82.6% | 71.5% | 93.7% | 65.0% | 70.5% | 95.3% | 83.5% | 75.7% | 67.2% | 78.3% |
Llama 3.2V 90B | 85.8% | 56.8% | 92.3% | 60.6% | 57.3% | 90.1% | 83.4% | 78.3% | 69.8% | 74.9% |
Llama 4 Maverick | 90.0% | 77.1% | 84.4% | 73.4% | 73.7% | 94.4% | 81.6% | 80.0% | 70.4% | 80.5% |
训练过程和架构细节
我们的模型遵循 Llava 架构,即使用 MLP 连接器将来自 SigLIP2-patch16-512 视觉编码器的视觉特征转换为(软)视觉 token。每张图像根据其尺寸(以最接近的宽高比为目标)被分割成最多 12 个图块,每个图块的分辨率为 512x512。此外,还包含一个大小为 512x512 的单个全局摘要缩略图。经过 MLP 和 像素洗牌——确保每个图块对应 256 个 token——后,所得特征被传递到 Command A 文本塔,一个密集型、111B 参数的文本 LLM。通过这种方式,单张图像最多消耗 3328 个 token。
我们分三个阶段训练了 Command A Vision——视觉-语言对齐、监督微调(SFT)和使用强化学习(RL)进行后期训练。在第一阶段(对齐),视觉编码器和语言模型权重保持冻结。这种方法使得图像编码器特征能够映射到语言模型嵌入空间。相比之下,在 SFT 阶段,我们同时在多样化的指令遵循多模态任务数据集上训练了视觉编码器、视觉适配器和语言模型。然后,我们对多个专家进行了多模态模型合并,类似于 Command A,以平衡我们的数据混合的各个部分,从而反映我们专家和企业用例的相对重要性。最后,在后期训练阶段,我们采用了正则化方法,以及多种 RLHF 算法,例如在线 对比策略梯度,以使模型与企业和安全需求对齐,同时进一步提升其性能。
为企业量身定制的功能和效率
Command A Vision 旨在为企业提供对其最关键的功能。它保留了 Command A 的许多文本功能,并结合了其他关键的、企业特定的文本功能,如高级检索增强生成(RAG)和跨多种关键商业语言的多语言性能。此外,Command A Vision 仅需两个或更少的 GPU 即可私密部署。它只需要两块 A100,或一块 H100 用于 4 位量化。
Command A Vision 入门
使用我们的 Hugging Face Space 或在 Cohere 平台上试用 Command A Vision。
要在本地运行,请安装 transformers 并运行
# pip install "transformers[dev-torch]@git+https://github.com/huggingface/transformers.git"
import torch
from transformers import AutoProcessor, AutoModelForImageTextToText
model_id = "CohereLabs/command-a-vision-07-2025"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
model_id, device_map="auto", torch_dtype=torch.float16
)
# Format message with the Command-A-Vision chat template
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://images.pexels.com/photos/1108099/pexels-photo-1108099.jpeg",
},
{"type": "text", "text": "what is in this image?"},
],
},
]
inputs = processor.apply_chat_template(
messages,
padding=True,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
gen_tokens = model.generate(**inputs, max_new_tokens=300)
print(
processor.tokenizer.decode(
gen_tokens[0][inputs.input_ids.shape[1] :], skip_special_tokens=True
)
)
有关更多信息,请参阅 Hugging Face Hub 上的 CohereLabs/command-a-vision-07-2025。
您还可以通过 Hugging Face 推理提供商使用该模型
import os
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="cohere",
api_key=os.environ["HF_TOKEN"],
)
completion = client.chat.completions.create(
model="CohereLabs/command-a-vision-07-2025",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Describe this image in one sentence."
},
{
"type": "image_url",
"image_url": {
"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
}
}
]
}
],
)
print(completion.choices[0].message)
最后,这项工作得益于 Cohere 核心多模态团队的努力,包括:Alexis Chevalier、Bharat Venkitesh、Evgenia Rusak、Hugo Dalla-Torre、Julian Mack、Kyle Duffy、Sebastian Hofstätter、Victor Machado、Viraat Aryabumi、Vlad Shmyhlo、Yongshuo Zong、Cassie Cao 和 Pierre Harvey Richemond。
参考资料
[1] Command A:一款企业级大型语言模型
[2] SigLIP 2:具有改进语义理解、定位和密集特征的多语言视觉-语言编码器
[3] 视觉指令微调
[4] 我们离 GPT-4V 还有多远?用开源套件缩小与商业多模态模型的差距
[5] 对比策略梯度:以监督友好的方式在序列级分数上对齐 LLM