TimeScope:你的视频大型多模态模型能走多远?

发布于2025年7月23日
在 GitHub 上更新

TL;DR

TimeScope 是一个开源基准,旨在衡量视觉-语言模型理解长视频的能力。通过在1分钟到8小时不等的视频中添加短“针”片段,它评估了三项技能:

  • 本地化检索,
  • 信息合成,
  • 细粒度时间感知。TimeScope 揭示了许多最先进的模型在真正的时间理解方面仍然面临挑战。

目录

多模态人工智能的最新进展产生了声称能理解长达数小时视频的模型。这一趋势与长上下文语言模型的进步相呼应,后者在对长文本进行推理方面表现出色。随之,视觉-语言系统现在宣传其上下文窗口可以处理数千帧。但这些声明需要仔细审查:这些模型是否真正展示了对事件序列的理解?它们是否仅限于表面级别的检索/识别?关键在于要问它们的能力是否被夸大了。

HELMRULER 等文本基准已经暴露了长上下文声明的脆弱性,表明模型在任务要求不仅仅是简单检索(如长上下文长度下的推理或聚合)时,常常会遇到困难。然而,在视频领域,我们仍在迎头赶上。最常见的测试,视频大海捞针 (VideoNIAH),将静态图像作为“针”插入视频中,有效地测量的是视觉搜索而非真正的时间动态。因此,即使是宣传拥有巨大帧容量的顶级模型,也很少在超过约256帧的情况下进行训练,并且在 Video-MME 等基准上进一步测试时,性能会急剧下降。

这种衡量差距让我们不禁要问:一个模型“理解”长视频到底意味着什么?为了解决这个问题,我们很高兴推出 TimeScope,一个新的托管在 Hugging Face 上的开源基准。TimeScope 通过将几个短(约5-10秒)的视频片段——我们的“针”——插入到从1分钟到8小时不等的基础视频中,来探测长视频能力的极限。通过三种不同的任务类型,它不仅评估检索,还评估合成、定位和细粒度运动分析,从而提供更全面的时间理解视图。

为什么是 TimeScope?推动更好的视频基准

长视频 AI 的前景是变革性的——它使代理能够总结数小时的片段,检测细微的异常,并回答关于扩展叙事的复杂问题。集成到机器人技术中,这些模型可以分析长时间操作,实时适应,并推动自主决策。同样强大的是个人助手的愿景,它能理解日常生活并提供持续、可操作的反馈。

在实践中,这导致了能力的夸大。模型可能声称能处理10,000多帧,但训练数据通常限制在每个片段256帧,导致在更长的输入上性能下降。我们已经在评估中看到了这一点,提高帧采样率会使要求时间洞察力的任务的准确性下降。

TimeScope 通过强调长视频理解的三个支柱来改变现状:

  1. 本地化检索:模型能否在一个庞大的视频中发现特定短片段并回答相关问题?
  2. 信息合成:它能否从时间轴上的多个点收集并整理细节?
  3. 细粒度时间感知:它能否分析需要密集多帧采样的“针”片段中的运动和事件?

基准设计

TimeScope 的核心思想是使用短视频片段作为“针”,并且不仅仅是发现这些针,它还推动模型深入理解整个视频。我们从一个长基础视频(例如,一部纪录片、一场讲座或环境录像)开始,并在随机位置插入一个或多个手动筛选的短视频针(每个5-10秒)。这些针包含解决任务所需的关键信息,迫使模型处理整个输入,而不能通过稀疏采样等捷径。

Benchmark Design Diagram

图1:TimeScope 的“针”插入过程概览。一个长的基础视频(1分钟到8小时)作为“干草堆”,我们将短视频“针”(约5-10秒)剪辑到其中。任务要求检测、合成或分析这些嵌入在不同深度的“针”中的内容。

我们评估了三种“针”类型,每种都针对长视频理解的不同方面:

1. 本地化检索

这测试了对局部事件的基本检索和理解能力。问题设置使得从“针”中采样相关帧就足够了——就像询问较长视频中较短部分的内容一样。

示例
视频中显示的是哪种交通工具?

2. 信息合成

在此,我们将多个基于文本的“针”(例如,2-4个短片通过屏幕文本显示“秘密单词”)嵌入到视频的不同位置。模型必须识别所有单词并按时间顺序报告,模拟从分散场景中提取时间戳或关键事实等任务。这需要扫描整个时间线并理解相对位置。

3. 细粒度时间感知

对于关注短片段内运动或序列的问题,单帧采样无法满足要求——模型需要感知跨帧的动态。这旨在探究长上下文处理是否能保持时间保真度。

示例
这个人挥斧头挥了几次?(a) 一次 (b) 两次 (c) 三次 (d) 四次 (e) 五次 (f) 六次

通过不同的视频长度和不同的“针”放置位置,TimeScope 衡量了模型能真正处理的视频量——并显示出性能会随着视频长度的增加而下降。

评估与排行榜

为了启动这项工作,我们对一系列领先的视觉-语言模型进行了 TimeScope 测试,包括开源热门模型和 Gemini 2.5-Pro 等巨头。结果突显了该基准的价值:即使是那些声称能很好处理长视频的模型,在面对真正的长视频任务时仍然表现挣扎。这些发现揭示了明显的模式——在特定时长下性能急剧下降,在静态检索方面表现出色,而在运动分析方面存在不足——并为模型训练中的有针对性改进铺平了道路。有关详细结果和可视化,请查看上面嵌入的我们的 Hugging Face Space。

我们学到了什么?

模型大小并非万能。Qwen 2.5-VL 3B 和 7B,以及 InternVL 2.5 模型在 2B、4B 和 8B 参数下的长视频曲线几乎与其较小版本无法区分。它们都在大致相同的上下文长度下达到平台期,表明简单地扩展参数并不能自动赋予更长的时间范围。

Gemini 2.5-Pro 独占鳌头。它是唯一一款在超过一小时的视频上仍保持高准确率的模型。

任务之间的权衡很重要。Qwen 2.5-VL 在信息合成(OCR)任务中表现出色——识别和排序分散的文本片段——但在细粒度时间感知方面落后,因为后者需要精确的运动计数。

结论 – 让我们提高长视频AI的标准

TimeScope 表明,“数小时视频理解”仍然更多是口号而非现实。通过揭示即使是最先进的模型在时间推理、信息合成和运动感知方面遇到的障碍,该基准促使我们重新思考如何训练和评估多模态系统。

  1. 运行演示 – 探索公共空间:https://huggingface.co/spaces/Apollo-LMMs/TimeScope
  2. 本地基准测试 – 使用两条快速命令评估任何模型
    pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git
    python -m lmms_eval --model-path <your-model> --benchmark timescope
    
  3. 加入排行榜 – 提交你的分数,看看你的模型表现如何。

我们希望这个基准能帮助社区稳步、可衡量地朝着更好地随时间理解视频的模型迈进。

我们正在开源 TimeScope 的所有组件:

社区

已删除
此评论已被隐藏

注册登录 评论