欢迎来到社区计算机视觉课程
亲爱的学习者,
欢迎参加**关于计算机视觉的社区驱动课程**。计算机视觉正在以多种方式改变我们的世界,从使用面部识别解锁手机到分析医学图像以检测疾病,再到监测野生动物和创建新图像。我们将一起深入了解计算机视觉的迷人世界!
在本课程中,我们将涵盖从基础知识到计算机视觉最新进展的所有内容。课程结构包含各种基础主题,使其对每个人都友好且易于访问。我们很高兴您加入我们,开启这段激动人心的旅程!
在本页,您可以找到如何加入学习者社区、提交作业并获得证书,以及更多关于课程的详细信息!
作业 📄
要获得完成课程的认证,请完成以下作业
- 训练/微调模型
- 构建应用程序并在 Hugging Face Spaces 上托管
训练/微调模型
在“笔记本/视觉转换器”部分下有一些笔记本。目前,我们有用于目标检测、图像分割和图像分类的笔记本。您可以使用 🤗 Hub 上已有的数据集训练模型,或者将数据集上传到数据集存储库并在其上训练模型。
模型存储库需要具备以下内容:
- 填写完整的模型卡片,您可以点击此处了解更多信息
- 如果您使用 transformers 训练了模型并将其推送到 Hub,则会生成模型卡片。在这种情况下,请编辑卡片并填写更多详细信息。
- 将数据集的 ID 添加到模型卡片中,以将模型存储库链接到数据集存储库。
创建空间
在本作业部分,您将为您的计算机视觉模型构建一个基于 Gradio 的应用程序,并在 🤗 Spaces 上共享它。使用以下资源了解有关这些任务的更多信息
认证 🥇
完成作业(训练/微调模型和创建空间)后,请填写此表单,其中包含您的姓名、电子邮件以及模型和空间存储库的链接,以接收您的证书
加入社区!
我们邀请您加入我们积极且支持的 Discord 社区,这里每天都会充满互动对话和共同兴趣,也是本课程的起源地。您会找到可以与之交流想法和资源的同伴。它是您协作、获取反馈和提出问题的来源!
这也是激励自己学习课程的好方法。加入我们的社区是保持参与度的绝佳方式。谁知道我们接下来会一起构建什么?
随着 AI 不断发展,我们社区的讨论质量和观点多样性也在不断提高。成为会员后,您将有机会与其他课程参与者建立联系,交流想法,并与他人合作。此外,本课程的贡献者活跃在 Discord 上,并在您需要时为您提供帮助。立即加入我们!
计算机视觉频道
我们的 Discord 服务器上有许多专注于不同主题的频道。您会发现人们在讨论论文、组织活动、分享他们的项目和想法、集思广益等等。
作为计算机视觉课程的学习者,您可能会发现以下频道特别相关
#computer-vision
:一个涵盖所有与计算机视觉相关内容的综合频道。#cv-study-group
:一个交流想法、询问特定帖子问题和发起讨论的地方。#3d
:一个讨论计算机视觉中特定于 3D 计算机视觉方面的频道
如果您对生成式 AI 感兴趣,我们也邀请您加入所有与扩散模型相关的频道:#core-announcements、#discussions、#dev-discussions 和 #diff-i-made-this。
你将学到什么
本课程由理论、实践教程和互动挑战组成。
- 理论部分:本部分详细介绍了计算机视觉的理论原理,并辅以实际示例。
- 动手教程:您将学习如何使用 Google Colab 笔记本训练和应用关键的计算机视觉模型。
在本课程中,我们将涵盖从基础知识到计算机视觉最新进展的所有内容。课程结构包含各种基础主题,让您全面了解是什么使得计算机视觉在今天如此具有影响力。
先决条件
在开始本课程之前,请确保您具备一定的 Python 编程经验,并且熟悉 Transformer、机器学习和神经网络。如果您不熟悉这些内容,可以考虑复习Hugging Face NLP 课程的第一单元。虽然深入了解预处理技术和卷积等数学运算很有益,但它们并非先决条件。
课程结构
本课程分为多个单元,涵盖基础知识并深入探讨最先进的模型。
- 单元 1 - 计算机视觉基础:本单元涵盖开始学习计算机视觉的必要概念:计算机视觉的需求、该领域的概况及其应用。探索图像基础、形成和预处理,以及特征提取的关键方面。
- 单元 2 - 卷积神经网络 (CNN):深入了解 CNN 的世界,了解其通用架构、关键概念和常用的预训练模型。学习如何应用迁移学习和微调以使 CNN 适应各种任务。
- 单元 3 - 视觉 Transformer:在计算机视觉的背景下探索 Transformer 架构,并学习它们与 CNN 的比较。了解常见的视觉 Transformer,例如 Swin、DETR 和 CVT,以及迁移学习和微调的技术。
- 单元 4 - 多模态模型:通过探索图像到文本和文本到图像等多模态任务,了解文本和视觉的融合。研究 CLIP 及其相关模型(GroupViT、BLIPM、Owl-VIT),并掌握多模态任务的迁移学习技术。
- 单元 5 - 生成模型:探索生成模型,包括 GAN、VAE 和扩散模型。了解它们在文本到图像、图像到图像和修复等任务中的差异和应用。
- 单元 6 - 基本计算机视觉任务:涵盖图像分类、目标检测和分割等基本任务以及用于这些任务的模型 (YOLO、SAM)。深入了解这些任务的指标和实际应用。
- 单元 7 - 视频和视频处理:检查视频的特征、视频处理的作用以及与图像处理相比的挑战。探索时间连续性、运动估计以及视频处理中的实际应用。
- 单元 8 - 3D 视觉、场景渲染和重建:深入探讨三维视觉的复杂性,探索 Nerf 和 GQN 等用于场景渲染和重建的概念。了解计算机视觉中 3D 视觉的挑战和应用,以及它如何提供更全面的空间信息视图。
- 单元 9 - 模型优化:探索模型优化的关键方面。涵盖模型压缩、部署注意事项以及工具和框架的使用等技术。包括蒸馏、剪枝和 TinyML 等主题,以实现高效的模型部署。
- 单元 10 - 合成数据创建:使用深度生成模型发现合成数据创建的重要性。探索点云和扩散模型等方法,并研究主要的合成数据集及其在计算机视觉中的应用。
- 单元 11 - 零样本计算机视觉:深入研究计算机视觉中的零样本学习领域,涵盖泛化、迁移学习及其在零样本识别和图像分割等任务中的应用。探索零样本学习与各种计算机视觉领域之间迁移学习的关系。
- 单元 12 - 计算机视觉中的伦理和偏差:了解特定于计算机视觉的伦理考虑。探讨为什么伦理很重要,偏差如何渗透到 AI 模型中,以及这些领域中普遍存在的偏差类型。学习如何进行偏差评估和缓解策略,强调 AI 技术的负责任开发和部署。
- 单元 13 - 展望和新兴趋势:探索当前趋势和新兴架构。深入研究创新的方法,如 Retentive Network、Hiera、Hyena、I-JEPA 和 Retention Vision Models。
我们的团队
本课程由 Hugging Face 社区倾情打造 💜!欢迎您在 GitHub 上贡献您的力量。我们的目标是创建一个对初学者友好的计算机视觉课程,并将其作为其他人的资源。来自世界各地的 60 多人共同努力使这个项目成为现实。在此,我们对他们表示感谢。
单元 1 - 计算机视觉基础
- 审阅者:Ratan Prasad,Ameed Taylor
- 作者:Seshu Pavan Mutyala,Isabella Bicalho-Frazeto,Aman Kapoor,Tiago Comassetto Fróes,Aditya Mishra,Kerem Delikoyun,Ker Lee Yap,Kathy Fahnline,Ameed Taylor
单元 2 - 卷积神经网络 (CNN)
- 审阅者:Ratan Prasad,Mohammed Hamdy,Sezan,Joshua Adrian Cahyono,Murtaza Nazir,Albert Kao,Sitam Meur,Antonis Stellas
- 作者:Emre Albayrak,Caroline Shamiso Chitongo,Sezan,Joshua Adrian Cahyono,Murtaza Nazir,Albert Kao,Isabella Bicalho-Frazeto,Aman Kapoor,Sitam Meur
单元 3 - 视觉转换器
- 单元 3 - 视觉 Transformer
- 审阅者:Ratan Prasad,Mohammed Hamdy,Ameed Taylor,Sezan
单元 4 - 多模态模型
- 作者:Surya Guthikonda,Ker Lee Yap,Anindyadeep Sannigrahi,Celina Hanouti,Malcolm Krolick,Alvin Li,Shreyas Daniel Gaddam,Anthony Susevski,Alan Ahmet
- 单元 4 - 多模态模型
单元 5 - 生成模型
- 审阅者:Ratan Prasad,Snehil Sanyal,Mohammed Hamdy,Charchit Sharma,Ameed Taylor,Isabella Bicalho-Frazeto
- 作者:Snehil Sanyal,Surya Guthikonda,Mateusz Dziemian,Charchit Sharma,Evstifeev Stepan,Jeremy Kespite,Isabella Bicalho-Frazeto,Pedro Gabriel Gengo Lourenco
单元 5 - 生成模型
- 审阅者:Ratan Prasad,William Bonvini,Mohammed Hamdy,Ameed Taylor-
- 作者:Jeronim Matijević,Mateusz Dziemian,Charchit Sharma,Muhammad Waseem
单元 7 - 视频和视频处理
- 单元 6 - 基本计算机视觉任务
- 作者:Diwakar Basnet
单元 8 - 3D 视觉、场景渲染和重建
- 审阅者:Ratan Prasad,William Bonvini,Mohammed Hamdy,Adhi Setiawan,Ameed Taylor
- 作者:John Fozard,Vasu Gupta,Psetinek
单元 9 - 模型优化
单元 10 - 合成数据创建
- 审阅者:Mohammed Hamdy,Ameed Taylor,Bhavesh Misra
- 作者:William Bonvini,Alper Balbay,Madhav Kumar,Bhavesh Misra,Kathy Fahnline
单元 11 - 零样本计算机视觉
单元 12 - 计算机视觉中的伦理和偏见
- 审阅者:Ratan Prasad,Mohammed Hamdy,Charchit Sharma,Adhi Setiawan,Ameed Taylor,Bhavesh Misra
- 作者:Snehil Sanyal,Bhavesh Misra
单元 13 - 展望和新兴趋势
- 审阅者:Ratan Prasad,Ameed Taylor,Mohammed Hamdy
- 作者:Farros Alferro,Mohammed Hamdy,Louis Ulmer,Dario Wisznewer,gonzachiar
组织团队 Merve Noyan,Adam Molnar,Johannes Kolbe
很高兴您来到这里,让我们开始吧!
< > GitHub 上的更新