计算机视觉常见任务概述
社区文章 发布于 2025 年 8 月 4 日
计算机视觉任务 | 定义/目的 | 关键基线模型/架构 | 常用方法/范式 |
---|---|---|---|
图像分类 | 为整个图像分配一个单一标签。 | ViT, DeiT, ConvNeXt | 微调预训练模型;使用多模态模型进行零样本分类。 |
物体检测 | 使用边界框和标签识别并定位多个对象。 | DETR, YOLOv8, FathomNet | 端到端检测;通过检测进行跟踪(用于跟踪)。 |
图像分割 | 将图像分割成有意义的部分(像素级标注)。 | SegFormer, Mask2Former-Panoptic) | 像素级分类;掩码分类范式;微调。 |
姿态估计 | 通过关键点近似对象的空间位置和方向。 | ViTPose | 自上而下的关键点检测(需要对象检测器)。 |
视觉问答(VQA) | 根据图像回答自然语言问题。 | ViLT, BLIP, BLIP-2, InstructBLIP, VisualBERT | 基于分类(多标签);生成式(自由形式回答);零样本 VQA。 |
异常检测 | 识别图像/视频中不符合预期行为的模式。 | 使用自编码器进行时间序列异常检测, AnomalyCLIP | 无监督学习(基于重建);零样本学习;离群暴露。 |
场景理解 | 解释场景中的 3D 几何、语义和关系。 | 语义场景理解论文, SceneDINO, Phi-4-multimodal-instruct | 神经隐式表示;自监督学习;多模态 LLM。 |
3D 重建 | 捕获真实对象/场景的形状和外观以创建 3D 模型。 | MeshFormer, 3D 常见对象论文, DUSt3R 论文 | 神经隐式曲面;用于 3D 的扩散模型;多视图几何。 |
视频理解 | 对整个视频进行分类或识别其中的特定动作。 | VideoMAE, TimeSformer, VideoMamba, Human-Action-Recognition | 微调;时空建模;在线与离线处理。 |
图像特征提取 | 从图像中提取语义上有意义的数值表示。 | ViT-base-patch16-224, ViT-base-patch16-384 | 从预训练的 CV 模型中移除特定任务的头部。 |
特征匹配 | 查找图像之间对应的点/区域以进行对齐。 | LoFTR 论文 | 基于距离的比较;近似最近邻;基于 Transformer 的匹配。 |
光学字符识别(OCR) | 将文档/图像转换为可编辑、可搜索的文本。 | 文本检测模型, CRNN, PARSeq | 模块化管道(检测 + 识别);微调。 |
图像标注与属性预测 | 分配描述性关键词或推断对象/主体的特定特征。 | wd-swinv2-tagger, Facial-Attribute-Detection | 多标签分类;在标注数据集上进行微调。 |
点云处理 | 处理以点集合形式存在的 3D 数据(生成、补全、分析)。 | 通用点模型 (GPM), Point-JEPA, 点云扩散模型 | 扩散模型;自监督学习;提示微调;多模态对齐。 |
图像生成 | 从文本创建新图像(文本到图像)或转换现有图像(图像到图像)。 | Stable Diffusion, FLUX 模型, Kandinsky 2.2 | 扩散模型;潜在空间操作。 |