社区计算机视觉课程文档

欢迎来到社区计算机视觉课程

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

欢迎来到社区计算机视觉课程

亲爱的学习者,

欢迎来到这个**社区驱动的计算机视觉课程**。计算机视觉正在以多种方式革新我们的世界,从通过面部识别解锁手机到分析医学图像以检测疾病、监测野生动物以及创建新图像。我们将一起深入探索计算机视觉的迷人世界!

在本课程中,我们将涵盖从基础知识到计算机视觉最新进展的所有内容。它的结构旨在包含各种基础主题,使其对每个人都友好和易于理解。我们很高兴您加入我们,踏上这段激动人心的旅程!

在此页面上,您可以找到如何加入学习者社区、提交作业并获得证书以及有关课程的更多详细信息!

作业 📄

要获得课程结业证书,请完成以下作业:

  1. 训练/微调模型
  2. 构建应用程序并将其托管在 Hugging Face Spaces 上

训练/微调模型

在“笔记本/视觉Transformer”部分有笔记本。目前,我们有用于目标检测、图像分割和图像分类的笔记本。您可以在 Hugging Face Hub 上已有的数据集上训练模型,或者将数据集上传到数据集存储库并在其上训练模型。

模型存储库需要包含以下内容:

  1. 一个正确填充的模型卡片,您可以在此处查看更多信息
  2. 如果您使用 transformers 训练了一个模型并将其推送到 Hub,则会自动生成模型卡。在这种情况下,请编辑卡片并填写更多详细信息。
  3. 将数据集的 ID 添加到模型卡中,以将模型存储库链接到数据集存储库。

创建 Space

在本作业部分,您将为您的计算机视觉模型构建一个基于 Gradio 的应用程序,并在 Hugging Face Spaces 上分享。使用以下资源了解更多关于这些任务的信息:

认证 🥇

完成作业——训练/微调模型和创建空间——后,请填写此表格,填写您的姓名、电子邮件以及模型和空间仓库的链接,以获取您的证书。

加入社区!

我们邀请您加入我们活跃且支持的 Discord 社区,那里每天都有精彩的对话和共同的兴趣蓬勃发展,也是本课程的起点。您将找到可以交流想法和资源的同伴。这是您协作、获取反馈和提问的来源!

这也是激励自己坚持课程的好方法。加入我们的社区是保持积极性的一种绝佳方式。谁知道我们接下来会一起创造什么呢?

随着人工智能的不断发展,我们社区的讨论质量和观点多样性也在不断提高。成为会员后,您将有机会与同学建立联系,交流思想,并与他人合作。此外,本课程的贡献者在 Discord 上也很活跃,并在您需要时提供帮助。现在就加入我们吧!

计算机视觉频道

在我们的 Discord 服务器上,有许多专注于各种主题的频道。您会发现人们讨论论文、组织活动、分享他们的项目和想法、集思广益等等。

作为计算机视觉课程的学习者,您可能会发现以下频道特别相关:

  • #computer-vision: 涵盖所有计算机视觉相关内容的通用频道
  • #cv-study-group: 交流想法、提问特定帖子并开始讨论的地方
  • #3d: 讨论与 3D 计算机视觉相关的计算机视觉方面内容的频道

如果您对生成式人工智能感兴趣,我们也邀请您加入所有与扩散模型相关的频道:#core-announcements、#discussions、#dev-discussions 和 #diff-i-made-this。

您将学到什么

本课程由理论、实践教程和引人入胜的挑战组成。

  • 理论部分:本节涵盖计算机视觉的理论原理,并结合实际示例进行详细解释。
  • 动手教程:您将学习如何使用 Google Colab 笔记本训练和应用关键的计算机视觉模型。

在本课程中,我们将涵盖从基础知识到计算机视觉最新进展的所有内容。它的结构旨在包含各种基础主题,让您全面了解计算机视觉在当今为何如此重要。

先决条件

在开始本课程之前,请确保您具有一些 Python 编程经验,并且熟悉 Transformer、机器学习和神经网络。如果这些对您来说是新概念,请考虑回顾Hugging Face 自然语言处理课程的第一单元。虽然对预处理技术和卷积等数学运算有扎实的了解是有益的,但它们并非先决条件。

课程结构

本课程分为多个单元,涵盖了基础知识并深入探讨了最先进的模型。

  • 单元 1 - 计算机视觉基础:本单元涵盖了计算机视觉入门的基本概念:计算机视觉的必要性、该领域的基础知识及其应用。探索图像基础、图像形成和预处理,以及特征提取的关键方面。
  • 单元 2 - 卷积神经网络 (CNN):深入探索 CNN 的世界,理解其通用架构、关键概念和常见的预训练模型。学习如何应用迁移学习和微调来使 CNN 适应各种任务。
  • 单元 3 - 视觉 Transformer:探索 Transformer 架构在计算机视觉中的应用,并了解它们与 CNN 的比较。理解常见的视觉 Transformer,如 Swin、DETR 和 CVT,以及迁移学习和微调技术。
  • 单元 4 - 多模态模型:通过探索图像到文本和文本到图像等多模态任务,理解文本和视觉的融合。研究 CLIP 及其相关模型(GroupViT、BLIPM、Owl-VIT),并掌握多模态任务的迁移学习技术。
  • 单元 5 - 生成模型:探索生成模型,包括 GAN、VAE 和扩散模型。了解它们在文本到图像、图像到图像和图像修复等任务中的区别和应用。
  • 单元 6 - 基本计算机视觉任务:涵盖图像分类、目标检测和分割等基本任务及其使用的模型(YOLO、SAM)。深入了解这些任务的指标和实际应用。
  • 单元 7 - 视频和视频处理:探讨视频的特点、视频处理的作用以及与图像处理相比的挑战。探索时间连续性、运动估计和视频处理中的实际应用。
  • 单元 8 - 3D 视觉、场景渲染和重建:深入探讨三维视觉的复杂性,探索 Nerf 和 GQN 等场景渲染和重建概念。了解 3D 视觉在计算机视觉中的挑战和应用,以及它如何提供更全面的空间信息。
  • 单元 9 - 模型优化:探索模型优化的关键方面。涵盖模型压缩、部署考虑以及工具和框架的使用等技术。包括蒸馏、剪枝和 TinyML 等主题,以实现高效的模型部署。
  • 单元 10 - 合成数据创建:了解使用深度生成模型创建合成数据的重要性。探索点云和扩散模型等方法,并研究主要的合成数据集及其在计算机视觉中的应用。
  • 单元 11 - 零样本计算机视觉:深入探讨计算机视觉中的零样本学习领域,涵盖泛化、迁移学习及其在零样本识别和图像分割等任务中的应用。探索零样本学习与跨各种计算机视觉领域的迁移学习之间的关系。
  • 单元 12 - 计算机视觉中的伦理和偏见:理解计算机视觉特有的伦理考量。探索为什么伦理很重要,偏见如何渗透到 AI 模型中,以及这些领域中普遍存在的偏见类型。学习如何进行偏见评估和缓解策略,强调负责任的 AI 技术开发和部署。
  • 单元 13 - 展望与新兴趋势:探索当前趋势和新兴架构。深入研究创新方法,如 Retentive Network、Hiera、Hyena、I-JEPA 和 Retention Vision Models。

认识我们的团队

本课程由 Hugging Face 社区倾情制作 💜!通过在 GitHub 上贡献加入我们。我们的目标是创建一个对初学者友好的计算机视觉课程,并能作为其他人的资源。来自世界各地的 60 多人齐心协力使这个项目得以实现。在此我们向他们致敬:

单元 1 - 计算机视觉基础

单元 2 - 卷积神经网络 (CNN)

单元 3 - 视觉Transformer

单元 4 - 多模态模型

单元 5 - 生成模型

单元 6 - 基本计算机视觉任务

单元 7 - 视频和视频处理

单元 8 - 3D 视觉、场景渲染和重建

单元 9 - 模型优化

单元 10 - 合成数据创建

单元 11 - 零样本计算机视觉

单元 12 - 计算机视觉中的伦理和偏见

单元 13 - 展望与新兴趋势

组织团队 Merve NoyanAdam MolnarJohannes Kolbe

我们很高兴您来到这里,让我们开始吧!

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.