CinePile 2.0 - 通过对抗式优化打造更强的数据集

发布于 2024 年 10 月 23 日
在 GitHub 上更新

在这篇博文中,我们将分享发布 CinePile 2.0 的历程,这是我们长视频问答 (QA) 数据集的显著改进版本。新数据集的改进依赖于一种我们称之为“对抗式数据集优化”的新方法。

我们很高兴能分享 CinePile 2.0 和我们的对抗式优化方法的实现,我们相信这种方法可以加强许多现有数据集,并直接成为未来数据集创建流程的一部分。

Advesarial Refinement Pipeline

如果您主要对对抗式优化方法感兴趣,可以直接跳转到“对抗式优化”部分

等等,CinePile 是什么?

2024 年 5 月,我们发布了 CinePile,一个包含约 30 万个训练样本和 5000 个测试样本的长视频问答数据集。

第一个版本在两个方面脱颖而出:

  • 问题多样性:涵盖时间理解、情节分析、角色动态、场景和主题。
  • 问题难度:在我们的基准测试中,人类的表现比最好的商业视觉模型高出 25%,比开源模型高出 65%。

查看数据样本

其背后的秘密武器之一是,它依赖于 YouTube 上的电影片段,以及从专为视障观众设计的精确音频描述中提炼出的问答对。这些描述提供了超出基本视觉信息(例如,“这辆车是什么颜色的?”)的丰富上下文,帮助我们创建更复杂的问题。

Sample Scene

告诉我更多细节。你们是如何构建原始数据集的?

为了自动化问题创建过程,我们首先通过研究现有的数据集(如 MovieQA 和 TVQA)来构建问题模板。我们使用文本相似度模型 WhereIsAI/UAE-Large-V1 对这些数据集中的问题进行聚类,然后用每个聚类中的 10 个随机示例来提示 GPT-4,为每个类别生成问题模板和典型问题。

类别 问题模板 典型问题
角色与关系动态 (CRD) 人际动态 在共同经历或行动之后,A 和 B 之间的关系发生了什么变化?
角色与关系动态 (CRD) 决策理由 角色给出什么理由来解释他们的决定?
叙事与情节分析 (NPA) 危机事件 什么重大事件导致了角色的极端行为?
叙事与情节分析 (NPA) 揭开谜团 角色 A 揭示了关于事件 B 的什么秘密?
场景与技术分析 (STA) 个人物品 [角色姓名] 手里拿着什么?
场景与技术分析 (STA) 环境细节 在 [特定时间/地点/事件] [期间/时刻],[场景/地点] 是什么样的?
时间 (TEMP) 关键的时间敏感行动 [角色] 必须迅速做什么,否则会有什么后果?
时间 (Temp) 频率 一个角色尝试 [行动 A] 多少次?
主题探索 (TH) 象征与主题追踪 场景 A 中引入的任何符号或主题是否在场景 B 中再次出现或演变,它们象征着什么?
主题探索 (TH) 主题平行 场景中的混乱与电影的哪些主题相呼应?

由于模板并非总是适用于每个电影片段,我们使用 Gemini 1.0 Pro 为每个场景选择最合适的模板。接着,我们向一个语言模型输入场景的文本、选定的模板名称(例如“个人物品”)、示例问题和一个系统提示,以创建针对特定场景的问题。一个精心设计的提示有助于模型关注整个场景,生成更有深度的问题,同时避免浅显的问题。我们发现:

  • 提供典型示例并为对话和视觉描述添加时间戳可以防止 GPT-4 产生幻觉。
  • 这种方法能生成更合理的多项选择题 (MCQ) 干扰项。
  • 要求模型为其答案提供理由可以提高问题质量。

使用这种方法,我们为每个视频生成大约 32 个问题。在发布 CinePile 之前,我们实施了几种机制来确保数据集/基准的质量,我们将在下一节中介绍。

检查初步结果的质量

虽然我们的流程通常能生成格式良好、可回答的问题,但有些问题结果很简单,或者依赖于不需要观看视频片段的基本概念。为了解决这个问题,我们使用了几个大型语言模型 (LLM) 来识别和过滤三种类型的问题:

  1. 退化问题

    • 如果一个问题的答案从问题本身就很明显(例如,“粉红色的房子是什么颜色的?”),那么它被认为是“退化”的。
    • 这类问题只占我们数据集的一小部分。
    • 由于在我们的规模下手动审查不可行,我们采用了三个 LLM——Gemini、GPT-3.5 和 Phi-1.5——进行自动化检测。
    • 如果所有三个模型在没有任何上下文的情况下都能正确回答,那么这些问题将从评估集中排除。
  2. 视觉依赖问题

    • 一些多项选择题可以仅通过对话来回答,而不需要视觉信息。
    • 我们使用 Gemini 模型来判断问题是否可以仅通过对话来回答。
    • 问题会得到一个二元分数:0 表示无需视觉信息即可回答,1 表示需要视觉信息。
  3. 难度评估

    • 为了评估问题难度,我们测试了模型在获得完整上下文(视觉描述和字幕)的情况下是否能正确回答。

通过我们团队和更广泛社区对基准的持续使用,我们确定了几个需要改进的领域,这促使我们考虑推出 CinePile 2.0。

CinePile 2.0

在 CinePile 的第二个版本中,我们与 Hugging Face 合作(继他们在 CinePile 上成功微调 Video Llava 7B 的实验之后),确定并优先考虑了几个改进领域。

CinePile 1.0 中的问题

虽然 CinePile 1.0 中的退化问题过滤很有用,但它有几个局限性:

  • 有些问题仅使用问答对就能回答,而不需要转录文本或视觉内容。
  • 许多被标记的问题包含了来自视频的有价值的见解——与其丢弃它们,不如重新措辞以更好地体现其价值。
  • 退化检查仅限于测试集:对于 CinePile 1.0 的训练集,运行多个模型——尤其是专有模型——成本太高。

为了解决这些问题,我们引入了一个新的_对抗式优化_流程,帮助改进弱问题而不是简单地丢弃它们。这种方法可以更容易地大规模应用。在本文中,我们将把识别退化问题(仅使用问题和答案选项,没有视觉或对话信息)的模型称为“盲聋 LLM”。

对抗式优化

Advesarial Refinement Pipeline

_对抗式优化_流程旨在修改问题或答案,直到盲聋 LLM 无法轻易预测正确答案。其工作原理如下:

  1. 盲聋 LLM 提供一个答案和一份解释,说明其仅根据问题做出的选择。
  2. 这些解释有助于识别问题中嵌入的隐含线索或偏见。
  3. 我们的问题生成模型使用这些解释来修改问题和/或答案选项,以消除隐含线索。
  4. 这个过程对每个问题最多重复五次,直到盲聋 LLM 的表现下降到随机猜测的水平。
Generated to Refined QA Example

考虑到这个迭代过程的计算需求,我们需要一个强大但易于获取的 LLM,可以在本地运行,以避免 API 使用限制、延迟和云服务成本。我们选择了:

  • LLaMA 3.1 70B (开源模型) 作为盲聋 LLM
  • GPT-4 用于生成问题修改

为了考虑随机机会,我们:

  • 测试了答案选项顺序的所有五种排列。
  • 如果模型在五次尝试中有三次回答正确,则将问题标记为退化。

对抗式优化的结果

简而言之,在 CinePile 中运行对抗式优化的影响如下:

  • 成功修改了测试集中 90.24% 的退化问答对
  • 手动审查了无法修复的问答对(约 800 个中的 80 个)
    • 尽可能进行修改
    • 否则从评估集中排除
  • 修正了训练集中 90.94% 的弱问答对
    • 保留了无法修复的问答对,因为它们不会对性能产生负面影响

实现

在这次发布中,我们同时公布了我们的对抗式优化流程和用于识别弱问题的代码。完整的实现,包括所有提示,都可以在我们的公共仓库中找到。

评估

在对之前评估过的模型和 16 个新的视频-LLM 在修改后的测试集上进行测试后,我们在下图中突出了表现最佳的模型。以下是结果显示的内容:

  • Gemini 1.5 Pro 在商业视觉语言模型 (VLM) 中领先

    • 在“场景与技术分析”方面尤其出色
    • 在关于电影环境和角色互动的视觉驱动问题上表现最佳
  • 基于 GPT 的模型表现出有竞争力的性能

    • 在“叙事与情节分析”方面表现强劲
    • 在关于故事情节和角色互动的问题上表现良好
  • Gemini 1.5 Flash,Gemini 1.5 Pro 的轻量版

    • 总体准确率达到 58.75%
    • 在“场景与技术分析”方面表现尤其出色

Model Evaluations

开源模型

从 CinePile 的第一个版本到当前版本,开源视频-LLM 社区取得了显著进展。以下是我们的发现:

  • LLaVa-One Vision 领先于开源模型

    • 准确率达到 49.34%
    • 与 CinePile 1.0 的最佳表现者(Video LLaVA,22.51%)相比有显著提升
  • 较小模型表现出有竞争力的性能

    • LLaVa-OV(7B 参数)
    • MiniCPM-V 2.6(8B 参数)
    • 两者均优于 InternVL2(26B 参数)
  • 还有改进空间

    • 几乎所有模型在困难分割上的准确率都下降了 15-20%
    • 表明还有很大的改进空间

困难分割

CinePile 中的困难分割结果清楚地表明,当前模型在理解视觉叙事和故事元素方面仍远远落后于人类能力。这一差距凸显了 CinePile 新版本作为衡量更复杂视觉理解进展的基准的价值。

Model Evaluations

排行榜

我们推出了一个新的CinePile 排行榜,随着新模型的出现,它将持续更新。请访问该空间了解如何提交您自己的模型进行评估。

社区

注册登录 发表评论