🌁#83:GAN 回归
🔳 Turing Post 受邀加入 🤗 Hugging Face 成为常驻机构 -> 点击关注!
现在,进入正题:
上周头条新闻被胆怯的 CEO 和洛杉矶的燃烧事件所占据,CES 的报道充斥着每个信息流。那段日子非常紧张,我们渴望回到久违的机器学习的怀抱。所以今天,我们重温一个经典:GAN。它们是否仍然配得上机器学习中最迷人理念之一的称号?
这份概述的灵感来自最近的论文“GAN 已死;GAN 万岁!”。一如既往,让我们从我们最喜欢的起点——对历史的回顾——开始。
GAN 的诞生:两网络的博弈
论文《生成对抗网络》由 Ian Goodfellow 及其团队于 2014 年发表。其概念简单却具有革命性:生成器和判别器两个神经网络在零和博弈中竞争。
- 生成器:这个网络从随机噪声开始创建虚假数据(例如图像、音频或文本)。其目标是生成逼真的数据,让另一个网络(判别器)无法辨别真伪。
- 判别器:这个网络充当裁判。它查看数据(真实和虚假),并尝试判断其是真实的还是由生成器生成的。
这种对抗性训练迫使两个网络都不断改进,最终生成与真实数据难以区分的合成数据。
这种方法被证明非常有效。以至于在 2016 年,Yann LeCun 表示“这是我们有史以来最好的想法之一”。
图片来源:RI 研讨会:Yann LeCun:人工智能的下一个前沿:无监督学习
与早期生成模型如变分自编码器(VAEs)和受限玻尔兹曼机(RBMs)相比,GAN 生成的图像更清晰,学习到的模式更复杂,并开辟了新的可能性。
围绕 GAN 的兴奋之情显而易见,但训练挑战,如不稳定性和模式坍塌,也是真实存在的。
转向扩散模型
随着时间的推移,那些训练难题变得越来越难以忽视。大约在 2022 年,一个新的挑战者出现了:扩散模型。这些模型将数据生成视为一个渐进的精细化过程,这使得它们更稳定,也更容易训练。
扩散模型迅速抢占了风头,提供了高质量、多样化的输出,并为研究人员减少了许多麻烦。GAN,曾经是生成建模的明星,开始逐渐淡出人们的视线。
GAN 已死;GAN 万岁!
并非所有信仰者都停止了讨论!就在几天前,在崭新的 2025 年,一篇题为《GAN 已死;GAN 万岁!》的论文重新点燃了人们对 GAN 的兴趣。该论文由黄一文 (Yiwen Huang)、亚伦·戈卡斯兰 (Aaron Gokaslan)、沃洛德米尔·库列绍夫 (Volodymyr Kuleshov) 和詹姆斯·汤普金 (James Tompkin) 撰写,文中指出 GAN 的挑战更多是由于过时的架构和技术,而非其固有的缺陷。
这个想法的核心是一个更好的损失函数——把它想象成一种更智能的衡量 GAN 学习效果的方式。他们称之为**相对论 GAN 损失**。它使 GAN 训练过程更平滑,并且更不容易出现常见的奇怪伪影或陷入只生成少量图像的问题。
研究人员还对 GAN 架构进行了现代化改造。他们以 StyleGAN2(一种以生成逼真人脸而闻名的流行模型)为基础,并剔除了所有由于 AI 设计的最新进展而不再需要的额外内容。他们添加了更好的构建块,如 ResNets 和分组卷积,以创建一个更精简、更强大的 GAN,名为 **R3GAN**。
这种新方法不仅效果更好,而且更简单。在 FFHQ(人脸数据集)和 CIFAR-10(日常物品的小图像)等标准基准测试中,R3GAN 击败了现有模型,包括一些扩散模型。此外,它的训练速度更快,计算能力消耗更少。
如果你因为 GAN 看起来过于繁琐或过时而避开它们,这可能是你再次尝试它们的最佳时机。R3GAN 让整个过程更容易上手。是时候重新思考 GAN 的能力了。
机器学习创新的迭代性
GAN 的复兴提醒我们机器学习创新的迭代性。GAN 之所以仍具相关性,是因为它们能高效地解决实际问题。生成高质量合成数据的能力现在变得更加关键,因为对生成式 AI 数据的需求已超出了现有资源的负荷。这在医疗保健等行业尤为重要,隐私问题使得共享真实世界数据充满挑战。
精选合集(原 Twitter 文库)
受 AMD 和约翰霍普金斯大学的《智能体实验室:使用 LLM 智能体作为研究助手》以及达拉斯德克萨斯大学的《LLM4SR:科学研究中的 LLM 调查》的启发,我们整理了此合集
您喜欢 Turing Post 吗?——> 点击“关注”!并订阅以直接发送到您的收件箱 -> https://www.turingpost.com/subscribe
我们正在阅读
- 在本文中,Will Schenk 比较了不同的 AI 研究工具,向它们提问“为什么夜晚会变暗?”,并得出结论:DeepResearch 在提供全面、可靠且有据可查的见解方面优于其他模型。非常值得一读。
- Ben Hylak 如何通过克服他的技能问题,从一名 o1 怀疑论者转变为拥趸。
- 智能体 作者:Chip Huyen
- Nathan Lambert 在 NeurIPS 上关于语言建模的教程重录(附加一些新内容)。
最新研究论文,方便您分类查阅
本周有不少顶级研究论文,我们将在每个部分用🌟标记它们。
推理和数学能力
- 🌟 Sky-T1:在 450 美元以内训练您自己的 O1 预览模型,展示了高性能推理模型的经济性,通过训练 32B 模型来完成推理和编码任务。
- 🌟 RStar-Math:小型 LLM 可通过自我演化深度思维掌握数学推理,强调小型模型通过蒙特卡洛树搜索和迭代自我改进方法在数学推理方面表现出色。
- 🌟 测试时计算:从系统 1 思维到系统 2 思维 探讨了通过结合直觉和审慎策略来增强人工智能推理的方法,以实现稳健的问题解决。
- 🌟 迈向 LLM 的系统 2 推理:学习如何使用元思维链进行思考 提出了 Meta-CoT,以实现迭代探索和验证,从而增强复杂问题解决任务的推理能力。
- Search-o1:Agentic 搜索增强大型推理模型 引入了用于推理模型的检索增强生成,通过集成外部知识提高了它们在复杂领域的准确性。
- BoostStep:通过改进的单步推理提升大型语言模型的数学能力 改进了数学任务的步级推理,显著提高了低相似度和挑战性基准的准确性。
- URSA:理解和验证多模态数学中的思维链推理 关注多模态任务的思维链推理,为数学问题解决提供强大的框架。
- DOLPHIN:通过思考、实践和反馈实现的闭环开放式自动研究 通过集成想法生成、验证和完善的迭代反馈循环,创新了自动研究。
- 多智能体微调:利用多样化推理链进行自我改进 通过多智能体系统增强模型推理,该系统在不同任务中保留了多样化的推理链。
基于人类反馈的强化学习 (RLHF)
- 🌟REINFORCE++:一种简单高效的大型语言模型对齐方法 通过将 PPO 启发的技术整合到 REINFORCE 框架中来改进 RLHF,从而实现更快、更稳定、更高效的对齐,而无需批评家网络。
- 分割文本并学习其奖励以改进语言模型中的 RLHF 通过引入段级奖励建模来推进 RLHF,确保语义连贯和密集的反馈,从而更好地对齐模型。
机器人与物理人工智能
- 🌟 Cosmos 世界基础模型平台,用于物理 AI 通过大规模、物理感知模拟训练机器人系统,适用于各种应用。
- OmniManip:通过以对象为中心的交互原语实现通用机器人操作 提出了一个用于稳健机器人操作的视觉语言框架,实现了任务间的零样本泛化。
检索增强生成(RAG)
- VideoRAG:基于视频语料库的检索增强生成 结合视觉和文本检索,以提高视频相关问题的回答准确性。
- 用于大型语言模型的个性化图谱检索 通过集成以用户为中心的知识图谱来丰富检索,从而实现个性化文本生成。
- 多任务检索器微调以实现特定领域和高效的 RAG 通过对特定领域任务的检索器进行微调,优化了企业应用的 RAG。
- GeAR:生成增强检索 使用双编码器架构连接检索和生成,以定位和检索细粒度文本单元。
未分类创新
- 视频自回归预训练的实证研究 探讨了视频数据的自回归预训练,在不同领域取得了竞争性表现。
- 用于私人 LLM 的熵引导注意力机制 引入了熵正则化技术,以提高 LLM 中私人推理的效率。
今天就到这里。感谢您的阅读!
如果本文能帮助您的同事增进对人工智能的理解并保持领先,请分享给他们。