社群计算机视觉课程文档
欢迎来到社群计算机视觉课程
并获得增强的文档体验
开始使用
欢迎来到社群计算机视觉课程
亲爱的学习者,
欢迎来到社群驱动的计算机视觉课程。计算机视觉正在以多种方式彻底改变我们的世界,从通过面部识别解锁手机到分析医学图像以进行疾病检测、监测野生动物和创建新图像。让我们一起潜入迷人的计算机视觉世界!
在本课程中,我们将涵盖从基础知识到计算机视觉最新进展的所有内容。本课程的结构包括各种基础主题,使其对所有人友好且易于访问。我们很高兴您加入我们,开始这段激动人心的旅程!
在此页面上,您可以找到如何加入学习者社群、提交作业并获得证书,以及有关课程的更多详细信息!
作业 📄
要获得完成本课程的证书,请完成以下作业
- 训练/微调模型
- 构建应用程序并将其托管在 Hugging Face Spaces 上
训练/微调模型
笔记本/Vision Transformers 部分下有笔记本。目前,我们有用于对象检测、图像分割和图像分类的笔记本。您可以在 🤗 Hub 上已有的数据集上训练模型,或者将数据集上传到数据集存储库并在其上训练模型。
模型存储库需要包含以下内容
- 填写完整的模型卡,您可以点击此处查看更多信息。
- 如果您使用 transformers 训练了模型并将其推送到 Hub,则会生成模型卡。在这种情况下,编辑卡片并填写更多详细信息。
- 将数据集的 ID 添加到模型卡,以将模型存储库链接到数据集存储库。
创建 Space
在此作业部分,您将为您的计算机视觉模型构建一个基于 Gradio 的应用程序,并将其分享到 🤗 Spaces 上。使用以下资源了解有关这些任务的更多信息
证书 🥇
完成作业(训练/微调模型和创建 Space)后,请填写表格,其中包含您的姓名、电子邮件以及指向您的模型和 Space 存储库的链接,以接收您的证书。
加入社群!
我们邀请您加入我们活跃且支持性的 Discord 社群,那里每天都有引人入胜的对话和共同的兴趣蓬勃发展,本课程也由此开始。您会找到可以与您交流想法和资源的同伴。它是您协作、获得反馈和提出问题的来源!
这也是激励自己继续学习本课程的好方法。加入我们的社群是保持参与度的绝佳方式。谁知道我们接下来会一起构建什么呢?
随着人工智能的不断发展,我们社群内讨论的质量和观点的多样性也在不断提高。成为会员后,您将有机会与课程的其他参与者联系、交流想法并与他人协作。此外,本课程的贡献者活跃于 Discord,并在需要时可能会为您提供帮助。现在就加入我们吧!
计算机视觉频道
我们的 Discord 服务器上有许多专注于各种主题的频道。您会发现人们在讨论论文、组织活动、分享他们的项目和想法、集思广益等等。
作为计算机视觉课程的学习者,您可能会发现以下频道特别相关
#computer-vision
:一个涵盖与计算机视觉相关的所有内容的综合频道#cv-study-group
:一个交流想法、询问有关特定帖子的问题并发起讨论的地方#3d
:一个讨论特定于 3D 计算机视觉的计算机视觉方面的频道
如果您对生成式 AI 感兴趣,我们也邀请您加入所有与扩散模型相关的频道:#core-announcements、#discussions、#dev-discussions 和 #diff-i-made-this。
您将学到什么
本课程由理论、实践教程和引人入胜的挑战组成。
- 理论部分:本节涵盖计算机视觉的理论原理,并结合实际示例进行详细解释。
- 动手教程:您将学习如何使用 Google Colab 笔记本训练和应用关键的计算机视觉模型。
在本课程中,我们将涵盖从基础知识到计算机视觉最新进展的所有内容。本课程的结构包括各种基础主题,让您全面了解是什么让计算机视觉在今天如此具有影响力。
预备知识
在开始本课程之前,请确保您具有 Python 编程经验,并且熟悉 transformers、机器学习和神经网络。如果您对这些内容不熟悉,请考虑复习 Hugging Face NLP 课程的第一单元。虽然对预处理技术和卷积等数学运算的深入了解是有益的,但它们不是先决条件。
课程结构
本课程分为多个单元,涵盖基础知识并深入探索最先进的模型。
- 单元 1 - 计算机视觉基础:本单元涵盖开始学习计算机视觉的基本概念:计算机视觉的需求、该领域的基础知识及其应用。探索图像基础知识、形成和预处理,以及特征提取的关键方面。
- 单元 2 - 卷积神经网络 (CNN):深入了解 CNN 的世界,了解其通用架构、关键概念和常见的预训练模型。学习如何应用迁移学习和微调来使 CNN 适应各种任务。
- 单元 3 - Vision Transformers:在计算机视觉的背景下探索 transformer 架构,并了解它们与 CNN 的比较。了解常见的 vision transformers,例如 Swin、DETR 和 CVT,以及迁移学习和微调技术。
- 单元 4 - 多模态模型:通过探索图像到文本和文本到图像等多模态任务,了解文本和视觉的融合。研究 CLIP 及其相关模型(GroupViT、BLIPM、Owl-VIT),并掌握用于多模态任务的迁移学习技术。
- 单元 5 - 生成模型:探索生成模型,包括 GAN、VAE 和扩散模型。了解它们在文本到图像、图像到图像和图像修复等任务中的差异和应用。
- 单元 6 - 基础计算机视觉任务:涵盖图像分类、对象检测和分割等基本任务以及其中使用的模型(YOLO、SAM)。深入了解这些任务的指标和实际应用。
- 单元 7 - 视频和视频处理:检查视频的特征、视频处理的作用以及与图像处理相比的挑战。探索时间连续性、运动估计以及视频处理中的实际应用。
- 单元 8 - 3D 视觉、场景渲染和重建:深入研究三维视觉的复杂性,探索 Nerf 和 GQN 等用于场景渲染和重建的概念。了解 3D 视觉在计算机视觉中的挑战和应用,以及它如何提供更全面的空间信息视图。
- 单元 9 - 模型优化:探索模型优化的关键方面。涵盖模型压缩、部署注意事项以及工具和框架的使用等技术。包括蒸馏、剪枝和 TinyML 等主题,以实现高效的模型部署。
- 单元 10 - 合成数据创建:了解使用深度生成模型创建合成数据的重要性。探索点云和扩散模型等方法,并研究主要的合成数据集及其在计算机视觉中的应用。
- 单元 11 - 零样本计算机视觉:深入研究计算机视觉中的零样本学习领域,涵盖泛化、迁移学习及其在零样本识别和图像分割等任务中的应用。探索零样本学习和迁移学习在各种计算机视觉领域之间的关系。
- 单元 12 - 计算机视觉中的伦理与偏见:了解计算机视觉特有的伦理考量。探索为什么伦理很重要,偏见如何渗透到 AI 模型中,以及这些领域中普遍存在的偏见类型。学习如何进行偏见评估和缓解策略,强调负责任地开发和部署 AI 技术。
- 单元 13 - 展望与新兴趋势:探索当前趋势和新兴架构。深入研究 Retentive Network、Hiera、Hyena、I-JEPA 和 Retention Vision Models 等创新方法。
认识我们的团队
本课程由 Hugging Face 社群充满爱意地制作 💜!通过在 GitHub 上添加您的贡献加入我们。我们的目标是创建一个对初学者友好的计算机视觉课程,并且可以作为其他人的资源。来自世界各地的 60 多人齐心协力,使这个项目成为现实。在此我们向他们致谢
单元 1 - 计算机视觉基础
- 审阅者:Ratan Prasad、Ameed Taylor、Sergio Paniego
- 作者:Seshu Pavan Mutyala、Isabella Bicalho-Frazeto、Aman Kapoor、Tiago Comassetto Fróes、Aditya Mishra、Kerem Delikoyun、Ker Lee Yap、Kathy Fahnline、Ameed Taylor
单元 2 - 卷积神经网络 (CNN)
- 审阅者:Ratan Prasad、Mohammed Hamdy、Sezan、Joshua Adrian Cahyono、Murtaza Nazir、Albert Kao、Sitam Meur、Antonis Stellas、Sergio Paniego
- 作者:Emre Albayrak、Caroline Shamiso Chitongo、Sezan、Joshua Adrian Cahyono、Murtaza Nazir、Albert Kao、Isabella Bicalho-Frazeto、Aman Kapoor、Sitam Meur
单元 3 - Vision Transformers
- 审阅者:Ratan Prasad、Mohammed Hamdy、Ameed Taylor、Sezan
- 作者:Surya Guthikonda、Ker Lee Yap、Anindyadeep Sannigrahi、Celina Hanouti、Malcolm Krolick、Alvin Li、Shreyas Daniel Gaddam、Anthony Susevski、Alan Ahmet、Ghassen Fatnassi
单元 4 - 多模态模型
- 审阅者:Ratan Prasad、Snehil Sanyal、Mohammed Hamdy、Charchit Sharma、Ameed Taylor、Isabella Bicalho-Frazeto
- 作者:Snehil Sanyal、Surya Guthikonda、Mateusz Dziemian、Charchit Sharma、Evstifeev Stepan、Jeremy Kespite、Isabella Bicalho-Frazeto、Pedro Gabriel Gengo Lourenco
单元 5 - 生成模型
- 审阅者:Ratan Prasad、William Bonvini、Mohammed Hamdy、Ameed Taylor-
- 作者:Jeronim Matijević、Mateusz Dziemian、Charchit Sharma、Muhammad Waseem
单元 6 - 基础计算机视觉任务
单元 7 - 视频和视频处理
- 审阅者:Ameed Taylor、Isabella Bicalho-Frazeto
- 作者:Diwakar Basnet、Chulhwa Han、Woojun Jung、Jiwook Han、Mingi Kim
单元 8 - 3D 视觉、场景渲染和重建
- 审阅者:Ratan Prasad、William Bonvini、Mohammed Hamdy、Adhi Setiawan、Ameed Taylor
- 作者:John Fozard、Vasu Gupta、Psetinek
单元 9 - 模型优化
单元 10 - 合成数据创建
- 审阅者:Mohammed Hamdy、Ameed Taylor、Bhavesh Misra
- 作者:William Bonvini、Alper Balbay、Madhav Kumar、Bhavesh Misra、Kathy Fahnline
单元 11 - 零样本计算机视觉
单元 12 - 计算机视觉中的伦理与偏见
- 审阅者:Ratan Prasad、Mohammed Hamdy、Charchit Sharma、Adhi Setiawan、Ameed Taylor、Bhavesh Misra
- 作者:Snehil Sanyal、Bhavesh Misra
单元 13 - 展望与新兴趋势
- 审阅者:Ratan Prasad、Ameed Taylor、Mohammed Hamdy
- 作者:Farros Alferro、Mohammed Hamdy、Louis Ulmer、Dario Wisznewer、gonzachiar
组织团队 Merve Noyan、Adam Molnar、Johannes Kolbe
很高兴您来到这里,让我们开始吧!
< > 在 GitHub 上更新