返回文章列表

计算机视觉常见任务概述

社区文章发布于 2025 年 8 月 4 日

计算机视觉任务	定义/目的	关键基线模型/架构	常用方法/范式
图像分类	为整个图像分配一个单一标签。	ViT, DeiT, ConvNeXt	微调预训练模型；使用多模态模型进行零样本分类。
物体检测	使用边界框和标签识别并定位多个对象。	DETR, YOLOv8, FathomNet	端到端检测；通过检测进行跟踪（用于跟踪）。
图像分割	将图像分割成有意义的部分（像素级标注）。	SegFormer, Mask2Former-Panoptic)	像素级分类；掩码分类范式；微调。
姿态估计	通过关键点近似对象的空间位置和方向。	ViTPose	自上而下的关键点检测（需要对象检测器）。
视觉问答（VQA）	根据图像回答自然语言问题。	ViLT, BLIP, BLIP-2, InstructBLIP, VisualBERT	基于分类（多标签）；生成式（自由形式回答）；零样本 VQA。
异常检测	识别图像/视频中不符合预期行为的模式。	使用自编码器进行时间序列异常检测, AnomalyCLIP	无监督学习（基于重建）；零样本学习；离群暴露。
场景理解	解释场景中的 3D 几何、语义和关系。	语义场景理解论文, SceneDINO, Phi-4-multimodal-instruct	神经隐式表示；自监督学习；多模态 LLM。
3D 重建	捕获真实对象/场景的形状和外观以创建 3D 模型。	MeshFormer, 3D 常见对象论文, DUSt3R 论文	神经隐式曲面；用于 3D 的扩散模型；多视图几何。
视频理解	对整个视频进行分类或识别其中的特定动作。	VideoMAE, TimeSformer, VideoMamba, Human-Action-Recognition	微调；时空建模；在线与离线处理。
图像特征提取	从图像中提取语义上有意义的数值表示。	ViT-base-patch16-224, ViT-base-patch16-384	从预训练的 CV 模型中移除特定任务的头部。
特征匹配	查找图像之间对应的点/区域以进行对齐。	LoFTR 论文	基于距离的比较；近似最近邻；基于 Transformer 的匹配。
光学字符识别（OCR）	将文档/图像转换为可编辑、可搜索的文本。	文本检测模型, CRNN, PARSeq	模块化管道（检测 + 识别）；微调。
图像标注与属性预测	分配描述性关键词或推断对象/主体的特定特征。	wd-swinv2-tagger, Facial-Attribute-Detection	多标签分类；在标注数据集上进行微调。
点云处理	处理以点集合形式存在的 3D 数据（生成、补全、分析）。	通用点模型 (GPM), Point-JEPA, 点云扩散模型	扩散模型；自监督学习；提示微调；多模态对齐。
图像生成	从文本创建新图像（文本到图像）或转换现有图像（图像到图像）。	Stable Diffusion, FLUX 模型, Kandinsky 2.2	扩散模型；潜在空间操作。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录发表评论

© . This site is unofficial and not affiliated with Hugging Face, Inc.