社区计算机视觉课程文档

欢迎来到社区计算机视觉课程

Hugging Face's logo
加入 Hugging Face 社区

并获得增强文档体验

开始使用

欢迎来到社区计算机视觉课程

亲爱的学习者,

欢迎参加**关于计算机视觉的社区驱动课程**。计算机视觉正在以多种方式改变我们的世界,从使用面部识别解锁手机到分析医学图像以检测疾病,再到监测野生动物和创建新图像。我们将一起深入了解计算机视觉的迷人世界!

在本课程中,我们将涵盖从基础知识到计算机视觉最新进展的所有内容。课程结构包含各种基础主题,使其对每个人都友好且易于访问。我们很高兴您加入我们,开启这段激动人心的旅程!

在本页,您可以找到如何加入学习者社区、提交作业并获得证书,以及更多关于课程的详细信息!

作业 📄

要获得完成课程的认证,请完成以下作业

  1. 训练/微调模型
  2. 构建应用程序并在 Hugging Face Spaces 上托管

训练/微调模型

在“笔记本/视觉转换器”部分下有一些笔记本。目前,我们有用于目标检测、图像分割和图像分类的笔记本。您可以使用 🤗 Hub 上已有的数据集训练模型,或者将数据集上传到数据集存储库并在其上训练模型。

模型存储库需要具备以下内容:

  1. 填写完整的模型卡片,您可以点击此处了解更多信息
  2. 如果您使用 transformers 训练了模型并将其推送到 Hub,则会生成模型卡片。在这种情况下,请编辑卡片并填写更多详细信息。
  3. 将数据集的 ID 添加到模型卡片中,以将模型存储库链接到数据集存储库。

创建空间

在本作业部分,您将为您的计算机视觉模型构建一个基于 Gradio 的应用程序,并在 🤗 Spaces 上共享它。使用以下资源了解有关这些任务的更多信息

认证 🥇

完成作业(训练/微调模型和创建空间)后,请填写此表单,其中包含您的姓名、电子邮件以及模型和空间存储库的链接,以接收您的证书

加入社区!

我们邀请您加入我们积极且支持的 Discord 社区,这里每天都会充满互动对话和共同兴趣,也是本课程的起源地。您会找到可以与之交流想法和资源的同伴。它是您协作、获取反馈和提出问题的来源!

这也是激励自己学习课程的好方法。加入我们的社区是保持参与度的绝佳方式。谁知道我们接下来会一起构建什么?

随着 AI 不断发展,我们社区的讨论质量和观点多样性也在不断提高。成为会员后,您将有机会与其他课程参与者建立联系,交流想法,并与他人合作。此外,本课程的贡献者活跃在 Discord 上,并在您需要时为您提供帮助。立即加入我们!

计算机视觉频道

我们的 Discord 服务器上有许多专注于不同主题的频道。您会发现人们在讨论论文、组织活动、分享他们的项目和想法、集思广益等等。

作为计算机视觉课程的学习者,您可能会发现以下频道特别相关

  • #computer-vision:一个涵盖所有与计算机视觉相关内容的综合频道。
  • #cv-study-group:一个交流想法、询问特定帖子问题和发起讨论的地方。
  • #3d:一个讨论计算机视觉中特定于 3D 计算机视觉方面的频道

如果您对生成式 AI 感兴趣,我们也邀请您加入所有与扩散模型相关的频道:#core-announcements、#discussions、#dev-discussions 和 #diff-i-made-this。

你将学到什么

本课程由理论、实践教程和互动挑战组成。

  • 理论部分:本部分详细介绍了计算机视觉的理论原理,并辅以实际示例。
  • 动手教程:您将学习如何使用 Google Colab 笔记本训练和应用关键的计算机视觉模型。

在本课程中,我们将涵盖从基础知识到计算机视觉最新进展的所有内容。课程结构包含各种基础主题,让您全面了解是什么使得计算机视觉在今天如此具有影响力。

先决条件

在开始本课程之前,请确保您具备一定的 Python 编程经验,并且熟悉 Transformer、机器学习和神经网络。如果您不熟悉这些内容,可以考虑复习Hugging Face NLP 课程的第一单元。虽然深入了解预处理技术和卷积等数学运算很有益,但它们并非先决条件。

课程结构

本课程分为多个单元,涵盖基础知识并深入探讨最先进的模型。

  • 单元 1 - 计算机视觉基础:本单元涵盖开始学习计算机视觉的必要概念:计算机视觉的需求、该领域的概况及其应用。探索图像基础、形成和预处理,以及特征提取的关键方面。
  • 单元 2 - 卷积神经网络 (CNN):深入了解 CNN 的世界,了解其通用架构、关键概念和常用的预训练模型。学习如何应用迁移学习和微调以使 CNN 适应各种任务。
  • 单元 3 - 视觉 Transformer:在计算机视觉的背景下探索 Transformer 架构,并学习它们与 CNN 的比较。了解常见的视觉 Transformer,例如 Swin、DETR 和 CVT,以及迁移学习和微调的技术。
  • 单元 4 - 多模态模型:通过探索图像到文本和文本到图像等多模态任务,了解文本和视觉的融合。研究 CLIP 及其相关模型(GroupViT、BLIPM、Owl-VIT),并掌握多模态任务的迁移学习技术。
  • 单元 5 - 生成模型:探索生成模型,包括 GAN、VAE 和扩散模型。了解它们在文本到图像、图像到图像和修复等任务中的差异和应用。
  • 单元 6 - 基本计算机视觉任务:涵盖图像分类、目标检测和分割等基本任务以及用于这些任务的模型 (YOLO、SAM)。深入了解这些任务的指标和实际应用。
  • 单元 7 - 视频和视频处理:检查视频的特征、视频处理的作用以及与图像处理相比的挑战。探索时间连续性、运动估计以及视频处理中的实际应用。
  • 单元 8 - 3D 视觉、场景渲染和重建:深入探讨三维视觉的复杂性,探索 Nerf 和 GQN 等用于场景渲染和重建的概念。了解计算机视觉中 3D 视觉的挑战和应用,以及它如何提供更全面的空间信息视图。
  • 单元 9 - 模型优化:探索模型优化的关键方面。涵盖模型压缩、部署注意事项以及工具和框架的使用等技术。包括蒸馏、剪枝和 TinyML 等主题,以实现高效的模型部署。
  • 单元 10 - 合成数据创建:使用深度生成模型发现合成数据创建的重要性。探索点云和扩散模型等方法,并研究主要的合成数据集及其在计算机视觉中的应用。
  • 单元 11 - 零样本计算机视觉:深入研究计算机视觉中的零样本学习领域,涵盖泛化、迁移学习及其在零样本识别和图像分割等任务中的应用。探索零样本学习与各种计算机视觉领域之间迁移学习的关系。
  • 单元 12 - 计算机视觉中的伦理和偏差:了解特定于计算机视觉的伦理考虑。探讨为什么伦理很重要,偏差如何渗透到 AI 模型中,以及这些领域中普遍存在的偏差类型。学习如何进行偏差评估和缓解策略,强调 AI 技术的负责任开发和部署。
  • 单元 13 - 展望和新兴趋势:探索当前趋势和新兴架构。深入研究创新的方法,如 Retentive Network、Hiera、Hyena、I-JEPA 和 Retention Vision Models。

我们的团队

本课程由 Hugging Face 社区倾情打造 💜!欢迎您在 GitHub 上贡献您的力量。我们的目标是创建一个对初学者友好的计算机视觉课程,并将其作为其他人的资源。来自世界各地的 60 多人共同努力使这个项目成为现实。在此,我们对他们表示感谢。

单元 1 - 计算机视觉基础

单元 2 - 卷积神经网络 (CNN)

单元 3 - 视觉转换器

单元 4 - 多模态模型

单元 5 - 生成模型

单元 5 - 生成模型

单元 7 - 视频和视频处理

单元 8 - 3D 视觉、场景渲染和重建

单元 9 - 模型优化

单元 10 - 合成数据创建

单元 11 - 零样本计算机视觉

单元 12 - 计算机视觉中的伦理和偏见

单元 13 - 展望和新兴趋势

组织团队 Merve NoyanAdam MolnarJohannes Kolbe

很高兴您来到这里,让我们开始吧!

< > GitHub 上的更新