MedVideoCap-55K 简介：一个全新的、大规模、高质量的医学视频-字幕对数据集

社区文章发布于 2025 年 6 月 25 日

1. 数据基础：MedVideoCap-55K 数据集的构建
1.1. 数据收集与标注：确保医学准确性的四步流程

1.2. 提升数据质量：确保干净训练数据的四步策略

2. 数据验证：MedGen 医疗视频生成模型的诞生

3. 价值实现：探索 MedGen 的多场景应用
3.1. 下游任务的数据增强

3.2. 医学科普、医学教育与患者模拟

本博客介绍了 MedVideoCap-55K，这是首个大规模、高质量且包含详细字幕的医学视频数据集，涵盖了超过 55,000 个来自各种医学场景的视频片段。在此数据集的基础上，作者开发了 MedGen，一个在视觉质量和医学准确性方面均表现出色的医学视频生成模型。

📃 论文 🤗 数据集 🧳 GitHub

我们将开源我们的模型、数据和代码。您可以稍后访问。

近年来，尽管端到端文本到视频 (T2V) 生成技术在通用领域取得了显著进展，但当其应用于医学领域时，常常会产生严重的错误，例如解剖结构扭曲和手术步骤错位。这些问题使其难以满足**临床培训**、**手术模拟**和**患者教育**的专业要求。核心瓶颈在于**缺乏大规模、高质量的医学视频数据**，这阻碍了视频生成模型复制经验丰富医师的专业知识——即准确捕捉关键解剖细节，同时严格保持医疗程序的时序逻辑。

为了应对这一挑战，**MedVideoCap-55K**应运而生。它是首个专门为医学视频生成构建的数据集，包含超过 55,000 个精细标注样本。基于此数据集，我们训练了**MedGen**——一个能够与商业系统媲美的医学视频生成模型，标志着医学领域专业级视频生成迈出了重要一步。

MedVideoCap-55K 数据集与现有医学视频数据集的比较。MedVideoCap-55K 在数据规模、视频分辨率、标注粒度和视频类型多样性方面均展现出显著提升。

1. 数据基础：MedVideoCap-55K 数据集的构建

为推动医学视频生成领域的突破性进展，我们开发了**MedVideoCap-55K**，这是首个大规模、高质量、精细标注的医学视频数据集。我们最初从 YouTube 等平台收集了约*2500 万*原始医学相关视频资源，涵盖*十余种真实世界医学场景*——包括临床诊疗、医学影像、手术教学和科学动画。通过严格的筛选、清洗和精细标注流程，我们最终精选了**55,000 个高质量视频样本**，形成了 MedVideoCap-55K 数据集。该数据集为多模态医学视频生成模型的开发提供了坚实的数据基础。

1.1. 数据收集与标注：确保医学准确性的四步流程

数据收集、处理和标注流程。

我们设计了一个四阶段的数据处理流程，以确保每个数据样本忠实反映真实世界的医疗环境。

初步语义过滤：利用医学关键词词典（包括解剖术语、手术术语等）和医学相关文本分类器进行双重验证，我们将 2500 万视频筛选至 37,000 个初步医学相关视频。
频道级别挖掘：对于已验证的医学视频，我们对其发布者的频道进行了回溯性收集，检索到额外的 140,000 小时相关内容。这使得数据集对医学场景的覆盖率扩展到 98.6%。
帧级别质量控制：我们使用一个与 CLIP 模型和人工标注数据共同训练的帧分类模型，以每秒 1 帧（FPS）的速度分析视频内容。仅保留连续 6 秒以上医学相关内容的片段，最终得到 111,000 个候选片段。
多模态标注与 GPT-4o：为了支持生成模型对医学知识的结构化学习，每个视频片段都配有详细的文本描述。我们从每个片段中均匀采样多帧，并结合视频标题、描述和语音转录。这些多模态输入被输入到 GPT-4o，以生成全面的字幕，涵盖环境设置、解剖结构、病理特征和操作规范等关键方面。

1.2. 提升数据质量：确保干净训练数据的四步策略

管道各阶段的数据保留和过滤变化。

尽管我们之前已经过滤掉了明显不相关和低分辨率的视频，但仍存在黑边、字幕和画面抖动等问题——严重影响了数据质量和下游模型的性能。为了解决这些问题，我们设计了一个四阶段的数据过滤流程，以提高数据集的可靠性：

黑边去除：使用基于 OpenCV 的检测方法识别并过滤掉带有黑边的医学视频。
字幕遮挡过滤：应用 EasyOCR 检测字幕，并排除字幕遮挡过多的视频。
美学质量筛选：使用 LAION 美学预测器评估视频帧，并移除受模糊、过曝或严重水印影响的低质量视频。
技术分数过滤：采用 Dover 评分系统排除画面抖动严重或存在视觉伪影的视频。
联合过滤：结合 Dover 分数和 LAION 美学分数，我们确保了技术和视觉质量，同时保留了视觉简洁但临床价值高的医学内容。

MedVideoCap-55K 样本。每个数据点包含一个医学视频片段、一个简短字幕和一个详细字幕。

通过这个数据精炼流程，我们最终确定了 **MedVideoCap-55K** 数据集，它具有以下主要特点：

时长均衡：所有视频片段的时长都在 6 到 10 秒之间，既能完整呈现医疗过程，又能保持模型训练的效率。
标准化分辨率：所有视频均采用 720×480 的主流分辨率，兼顾视觉清晰度和计算效率。
领域覆盖：数据集涵盖了多种医学应用场景，包括：
- 临床实践 (26.12%)
- 医学教育 (55.93%)
- 医学影像 (2.39%)
- 公共卫生教育 (9.41%)
- 医学动画 (6.15%)
质量指标：所有视频的美学评分在 4 到 7 之间（满分 10 分），大多数 Dover 评分超过 0.5（满分 1.0），显著超越了现有医学视频数据集的质量。

**MedVideoCap-55K** 数据集为医学视频生成研究提供了坚实的基础，兼具规模和专业深度。它解决了该领域数据稀缺和标注粗糙等关键痛点。展望未来，研究人员可以基于我们的数据流程构建更大规模的医学视频数据集，并进一步将 **MedVideoCap-55K** 扩展到其他任务，例如图像到视频 (I2V) 生成。

2. 数据验证：MedGen 医疗视频生成模型的诞生

为验证两个关键洞见：

(1) 医学视频数据稀缺是限制医学视频生成研究进展的核心瓶颈；
(2) MedVideoCap-55K 数据集的发布将显著推动医学视频生成领域的发展。

我们围绕 MedVideoCap-55K 进行了系统实验，为该领域的发展提供坚实的数据支持和研究基础。

基于开源通用视频生成模型 HunyuanVideo 和我们构建的 MedVideoCap-55K 数据集，我们训练了首个通用医学视频生成模型——**MedGen**。MedGen 在自动化基准评估和人工评估中均展现出强大的竞争力。

MedGen 在 Med-Vbench 自动化评估基准上的性能。

MedGen 与闭源商业视频生成模型在人工评估中的比较。

在自动化基准评估中，MedGen 优于 15 个主流开源视频生成模型，并且在生成的视频中产生了更少的变形错误。

在人工评估中，MedGen 在医学事实一致性、文本对齐和视觉质量方面表现出与商业闭源视频生成模型相当的性能。

目前，与大多数开源模型相比，商业闭源系统在整体性能上处于领先地位，这主要归因于其在训练资源方面的优势。然而，MedGen 在医学特定指标上的出色结果显著缩小了这一差距，这表明高质量的专业数据和有效的迁移学习能够使开源模型在专业领域具有高度竞争力。

此外，模型大小并非性能的唯一决定因素。参数量较小的模型 Wan2.1-T2V-1.3B 在多个指标上取得了与参数量更大的 CogVideoX-5B 相当的结果，这凸显了领域适应性和训练数据质量在医学视频生成中的关键重要性。

3. 价值实现：探索 MedGen 的多场景应用

作为首个医学视频生成模型，MedGen 不仅能确保医学内容的准确性，还能实现高质量视频生成，在手术模拟、医学教育、科学动画和远程会诊等领域展现出广阔的应用潜力。

3.1. 下游任务的数据增强

医学视频监督在外科手术流程识别、病灶检测和诊断辅助等场景中发挥着关键作用，有助于临床医生提高效率和准确性。然而，这些任务普遍面临标记数据稀缺、样本不均衡和隐私问题等挑战，限制了模型的泛化能力和实际效果。利用高质量的合成数据进行增强已成为提高下游监督模型性能的关键方法。

基于 MedGen，我们探索了其作为数据增强工具在各种医学视频分类任务中的应用。通过将 MedGen 生成的视频与原始训练数据相结合，我们证明了其对提高下游任务性能的积极影响。

MedGen 和 HunyuanVideo 作为数据增强在三个医学视频监督下游任务中的性能提升比较。

使用 MedGen 生成的数据进行训练后，模型在 MedVidCL、HyperKvasir 和 SurgVisDom 三个基准数据集的各项指标上均显示出显著改进。这表明 MedGen 作为一种高质量、领域特定的数据增强方法，具有显著提升医学视频理解能力的巨大潜力。

3.2. 医学科普、医学教育与患者模拟

MedGen 在患者模拟、公共卫生教育、外科培训、医学动画和医学影像中的应用。

MedGen 能够生成多样化、高质量的视频内容，涵盖公共卫生教育、手术模拟、医学影像展示、教学材料和患者互动模拟等领域，极大地丰富了医学视频资源的形式。特别是在真实视频数据稀缺、隐私保护严格或数据采集成本高昂的场景下，MedGen 生成的视觉连贯且医学相关的视频，将成为医学内容创作、模拟和医疗健康交流的重要辅助工具。这进一步拓展了医学影像技术的应用边界和创新潜力。

目前，MedVideoCap-55K 和 MedGen 已在 GitHub 和 Hugging Face 上开源，相关论文已上传至 arXiv。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论