计算机视觉常见任务概述

社区文章 发布于 2025 年 8 月 4 日
计算机视觉任务 定义/目的 关键基线模型/架构 常用方法/范式
图像分类 为整个图像分配一个单一标签。 ViT, DeiT, ConvNeXt 微调预训练模型;使用多模态模型进行零样本分类。
物体检测 使用边界框和标签识别并定位多个对象。 DETR, YOLOv8, FathomNet 端到端检测;通过检测进行跟踪(用于跟踪)。
图像分割 将图像分割成有意义的部分(像素级标注)。 SegFormer, Mask2Former-Panoptic) 像素级分类;掩码分类范式;微调。
姿态估计 通过关键点近似对象的空间位置和方向。 ViTPose 自上而下的关键点检测(需要对象检测器)。
视觉问答(VQA) 根据图像回答自然语言问题。 ViLT, BLIP, BLIP-2, InstructBLIP, VisualBERT 基于分类(多标签);生成式(自由形式回答);零样本 VQA。
异常检测 识别图像/视频中不符合预期行为的模式。 使用自编码器进行时间序列异常检测, AnomalyCLIP 无监督学习(基于重建);零样本学习;离群暴露。
场景理解 解释场景中的 3D 几何、语义和关系。 语义场景理解论文, SceneDINO, Phi-4-multimodal-instruct 神经隐式表示;自监督学习;多模态 LLM。
3D 重建 捕获真实对象/场景的形状和外观以创建 3D 模型。 MeshFormer, 3D 常见对象论文, DUSt3R 论文 神经隐式曲面;用于 3D 的扩散模型;多视图几何。
视频理解 对整个视频进行分类或识别其中的特定动作。 VideoMAE, TimeSformer, VideoMamba, Human-Action-Recognition 微调;时空建模;在线与离线处理。
图像特征提取 从图像中提取语义上有意义的数值表示。 ViT-base-patch16-224, ViT-base-patch16-384 从预训练的 CV 模型中移除特定任务的头部。
特征匹配 查找图像之间对应的点/区域以进行对齐。 LoFTR 论文 基于距离的比较;近似最近邻;基于 Transformer 的匹配。
光学字符识别(OCR) 将文档/图像转换为可编辑、可搜索的文本。 文本检测模型, CRNN, PARSeq 模块化管道(检测 + 识别);微调。
图像标注与属性预测 分配描述性关键词或推断对象/主体的特定特征。 wd-swinv2-tagger, Facial-Attribute-Detection 多标签分类;在标注数据集上进行微调。
点云处理 处理以点集合形式存在的 3D 数据(生成、补全、分析)。 通用点模型 (GPM), Point-JEPA, 点云扩散模型 扩散模型;自监督学习;提示微调;多模态对齐。
图像生成 从文本创建新图像(文本到图像)或转换现有图像(图像到图像)。 Stable Diffusion, FLUX 模型, Kandinsky 2.2 扩散模型;潜在空间操作。

社区

注册登录 发表评论