欢迎来到社区计算机视觉课程

亲爱的学习者，

欢迎来到这个**社区驱动的计算机视觉课程**。计算机视觉正在以多种方式革新我们的世界，从通过面部识别解锁手机到分析医学图像以检测疾病、监测野生动物以及创建新图像。我们将一起深入探索计算机视觉的迷人世界！

在本课程中，我们将涵盖从基础知识到计算机视觉最新进展的所有内容。它的结构旨在包含各种基础主题，使其对每个人都友好和易于理解。我们很高兴您加入我们，踏上这段激动人心的旅程！

在此页面上，您可以找到如何加入学习者社区、提交作业并获得证书以及有关课程的更多详细信息！

作业 📄

要获得课程结业证书，请完成以下作业：

训练/微调模型
构建应用程序并将其托管在 Hugging Face Spaces 上

训练/微调模型

在“笔记本/视觉Transformer”部分有笔记本。目前，我们有用于目标检测、图像分割和图像分类的笔记本。您可以在 Hugging Face Hub 上已有的数据集上训练模型，或者将数据集上传到数据集存储库并在其上训练模型。

模型存储库需要包含以下内容：

一个正确填充的模型卡片，您可以在此处查看更多信息。
如果您使用 transformers 训练了一个模型并将其推送到 Hub，则会自动生成模型卡。在这种情况下，请编辑卡片并填写更多详细信息。
将数据集的 ID 添加到模型卡中，以将模型存储库链接到数据集存储库。

创建 Space

在本作业部分，您将为您的计算机视觉模型构建一个基于 Gradio 的应用程序，并在 Hugging Face Spaces 上分享。使用以下资源了解更多关于这些任务的信息：

认证 🥇

完成作业——训练/微调模型和创建空间——后，请填写此表格，填写您的姓名、电子邮件以及模型和空间仓库的链接，以获取您的证书。

加入社区！

我们邀请您加入我们活跃且支持的 Discord 社区，那里每天都有精彩的对话和共同的兴趣蓬勃发展，也是本课程的起点。您将找到可以交流想法和资源的同伴。这是您协作、获取反馈和提问的来源！

这也是激励自己坚持课程的好方法。加入我们的社区是保持积极性的一种绝佳方式。谁知道我们接下来会一起创造什么呢？

随着人工智能的不断发展，我们社区的讨论质量和观点多样性也在不断提高。成为会员后，您将有机会与同学建立联系，交流思想，并与他人合作。此外，本课程的贡献者在 Discord 上也很活跃，并在您需要时提供帮助。现在就加入我们吧！

计算机视觉频道

在我们的 Discord 服务器上，有许多专注于各种主题的频道。您会发现人们讨论论文、组织活动、分享他们的项目和想法、集思广益等等。

作为计算机视觉课程的学习者，您可能会发现以下频道特别相关：

#computer-vision: 涵盖所有计算机视觉相关内容的通用频道
#cv-study-group: 交流想法、提问特定帖子并开始讨论的地方
#3d: 讨论与 3D 计算机视觉相关的计算机视觉方面内容的频道

如果您对生成式人工智能感兴趣，我们也邀请您加入所有与扩散模型相关的频道：#core-announcements、#discussions、#dev-discussions 和 #diff-i-made-this。

您将学到什么

本课程由理论、实践教程和引人入胜的挑战组成。

理论部分：本节涵盖计算机视觉的理论原理，并结合实际示例进行详细解释。
动手教程：您将学习如何使用 Google Colab 笔记本训练和应用关键的计算机视觉模型。

在本课程中，我们将涵盖从基础知识到计算机视觉最新进展的所有内容。它的结构旨在包含各种基础主题，让您全面了解计算机视觉在当今为何如此重要。

先决条件

在开始本课程之前，请确保您具有一些 Python 编程经验，并且熟悉 Transformer、机器学习和神经网络。如果这些对您来说是新概念，请考虑回顾Hugging Face 自然语言处理课程的第一单元。虽然对预处理技术和卷积等数学运算有扎实的了解是有益的，但它们并非先决条件。

课程结构

本课程分为多个单元，涵盖了基础知识并深入探讨了最先进的模型。

单元 1 - 计算机视觉基础：本单元涵盖了计算机视觉入门的基本概念：计算机视觉的必要性、该领域的基础知识及其应用。探索图像基础、图像形成和预处理，以及特征提取的关键方面。
单元 2 - 卷积神经网络 (CNN)：深入探索 CNN 的世界，理解其通用架构、关键概念和常见的预训练模型。学习如何应用迁移学习和微调来使 CNN 适应各种任务。
单元 3 - 视觉 Transformer：探索 Transformer 架构在计算机视觉中的应用，并了解它们与 CNN 的比较。理解常见的视觉 Transformer，如 Swin、DETR 和 CVT，以及迁移学习和微调技术。
单元 4 - 多模态模型：通过探索图像到文本和文本到图像等多模态任务，理解文本和视觉的融合。研究 CLIP 及其相关模型（GroupViT、BLIPM、Owl-VIT），并掌握多模态任务的迁移学习技术。
单元 5 - 生成模型：探索生成模型，包括 GAN、VAE 和扩散模型。了解它们在文本到图像、图像到图像和图像修复等任务中的区别和应用。
单元 6 - 基本计算机视觉任务：涵盖图像分类、目标检测和分割等基本任务及其使用的模型（YOLO、SAM）。深入了解这些任务的指标和实际应用。
单元 7 - 视频和视频处理：探讨视频的特点、视频处理的作用以及与图像处理相比的挑战。探索时间连续性、运动估计和视频处理中的实际应用。
单元 8 - 3D 视觉、场景渲染和重建：深入探讨三维视觉的复杂性，探索 Nerf 和 GQN 等场景渲染和重建概念。了解 3D 视觉在计算机视觉中的挑战和应用，以及它如何提供更全面的空间信息。
单元 9 - 模型优化：探索模型优化的关键方面。涵盖模型压缩、部署考虑以及工具和框架的使用等技术。包括蒸馏、剪枝和 TinyML 等主题，以实现高效的模型部署。
单元 10 - 合成数据创建：了解使用深度生成模型创建合成数据的重要性。探索点云和扩散模型等方法，并研究主要的合成数据集及其在计算机视觉中的应用。
单元 11 - 零样本计算机视觉：深入探讨计算机视觉中的零样本学习领域，涵盖泛化、迁移学习及其在零样本识别和图像分割等任务中的应用。探索零样本学习与跨各种计算机视觉领域的迁移学习之间的关系。
单元 12 - 计算机视觉中的伦理和偏见：理解计算机视觉特有的伦理考量。探索为什么伦理很重要，偏见如何渗透到 AI 模型中，以及这些领域中普遍存在的偏见类型。学习如何进行偏见评估和缓解策略，强调负责任的 AI 技术开发和部署。
单元 13 - 展望与新兴趋势：探索当前趋势和新兴架构。深入研究创新方法，如 Retentive Network、Hiera、Hyena、I-JEPA 和 Retention Vision Models。