🌁#83:GAN 回归

社区文章 发布于 2025 年 1 月 13 日

🔳 Turing Post 受邀加入 🤗 Hugging Face 成为常驻机构 -> 点击关注!


现在,进入正题:

image/png

上周头条新闻被胆怯的 CEO 和洛杉矶的燃烧事件所占据,CES 的报道充斥着每个信息流。那段日子非常紧张,我们渴望回到久违的机器学习的怀抱。所以今天,我们重温一个经典:GAN。它们是否仍然配得上机器学习中最迷人理念之一的称号?

这份概述的灵感来自最近的论文“GAN 已死;GAN 万岁!”。一如既往,让我们从我们最喜欢的起点——对历史的回顾——开始。

GAN 的诞生:两网络的博弈

论文《生成对抗网络》由 Ian Goodfellow 及其团队于 2014 年发表。其概念简单却具有革命性:生成器和判别器两个神经网络在零和博弈中竞争。

  • 生成器:这个网络从随机噪声开始创建虚假数据(例如图像、音频或文本)。其目标是生成逼真的数据,让另一个网络(判别器)无法辨别真伪。
  • 判别器:这个网络充当裁判。它查看数据(真实和虚假),并尝试判断其是真实的还是由生成器生成的。

这种对抗性训练迫使两个网络都不断改进,最终生成与真实数据难以区分的合成数据。

这种方法被证明非常有效。以至于在 2016 年,Yann LeCun 表示“这是我们有史以来最好的想法之一”。

image/png

图片来源:RI 研讨会:Yann LeCun:人工智能的下一个前沿:无监督学习

与早期生成模型如变分自编码器(VAEs)和受限玻尔兹曼机(RBMs)相比,GAN 生成的图像更清晰,学习到的模式更复杂,并开辟了新的可能性。

围绕 GAN 的兴奋之情显而易见,但训练挑战,如不稳定性和模式坍塌,也是真实存在的。

转向扩散模型

随着时间的推移,那些训练难题变得越来越难以忽视。大约在 2022 年,一个新的挑战者出现了:扩散模型。这些模型将数据生成视为一个渐进的精细化过程,这使得它们更稳定,也更容易训练。

扩散模型迅速抢占了风头,提供了高质量、多样化的输出,并为研究人员减少了许多麻烦。GAN,曾经是生成建模的明星,开始逐渐淡出人们的视线。

GAN 已死;GAN 万岁!

并非所有信仰者都停止了讨论!就在几天前,在崭新的 2025 年,一篇题为《GAN 已死;GAN 万岁!》的论文重新点燃了人们对 GAN 的兴趣。该论文由黄一文 (Yiwen Huang)亚伦·戈卡斯兰 (Aaron Gokaslan)沃洛德米尔·库列绍夫 (Volodymyr Kuleshov)詹姆斯·汤普金 (James Tompkin) 撰写,文中指出 GAN 的挑战更多是由于过时的架构和技术,而非其固有的缺陷。

这个想法的核心是一个更好的损失函数——把它想象成一种更智能的衡量 GAN 学习效果的方式。他们称之为**相对论 GAN 损失**。它使 GAN 训练过程更平滑,并且更不容易出现常见的奇怪伪影或陷入只生成少量图像的问题。

研究人员还对 GAN 架构进行了现代化改造。他们以 StyleGAN2(一种以生成逼真人脸而闻名的流行模型)为基础,并剔除了所有由于 AI 设计的最新进展而不再需要的额外内容。他们添加了更好的构建块,如 ResNets 和分组卷积,以创建一个更精简、更强大的 GAN,名为 **R3GAN**。

这种新方法不仅效果更好,而且更简单。在 FFHQ(人脸数据集)和 CIFAR-10(日常物品的小图像)等标准基准测试中,R3GAN 击败了现有模型,包括一些扩散模型。此外,它的训练速度更快,计算能力消耗更少。

如果你因为 GAN 看起来过于繁琐或过时而避开它们,这可能是你再次尝试它们的最佳时机。R3GAN 让整个过程更容易上手。是时候重新思考 GAN 的能力了。

机器学习创新的迭代性

GAN 的复兴提醒我们机器学习创新的迭代性。GAN 之所以仍具相关性,是因为它们能高效地解决实际问题。生成高质量合成数据的能力现在变得更加关键,因为对生成式 AI 数据的需求已超出了现有资源的负荷。这在医疗保健等行业尤为重要,隐私问题使得共享真实世界数据充满挑战。


精选合集(原 Twitter 文库)

受 AMD 和约翰霍普金斯大学的《智能体实验室:使用 LLM 智能体作为研究助手》以及达拉斯德克萨斯大学的《LLM4SR:科学研究中的 LLM 调查》的启发,我们整理了此合集

10 个人工智能系统助力科学研究


您喜欢 Turing Post 吗?——> 点击“关注”!并订阅以直接发送到您的收件箱 -> https://www.turingpost.com/subscribe


我们正在阅读

  • 在本文中,Will Schenk 比较了不同的 AI 研究工具,向它们提问“为什么夜晚会变暗?”,并得出结论:DeepResearch 在提供全面、可靠且有据可查的见解方面优于其他模型。非常值得一读。
  • Ben Hylak 如何通过克服他的技能问题,从一名 o1 怀疑论者转变为拥趸。
  • 智能体 作者:Chip Huyen
  • Nathan Lambert 在 NeurIPS 上关于语言建模的教程重录(附加一些新内容)。

最新研究论文,方便您分类查阅

本周有不少顶级研究论文,我们将在每个部分用🌟标记它们。

推理和数学能力

基于人类反馈的强化学习 (RLHF)

机器人与物理人工智能

检索增强生成(RAG)

未分类创新

今天就到这里。感谢您的阅读!


如果本文能帮助您的同事增进对人工智能的理解并保持领先,请分享给他们。

image/png

社区

注册登录以评论