扩散语言模型:新范式

社区文章 发布于2025年6月10日

扩散语言模型代表了自Transformer问世以来语言生成领域最重大的架构创新,其中Google的Gemini Diffusion于2025年5月首次实现与自回归模型的商业级性能持平。与传统的GPT类模型逐个词元顺序生成文本不同,DLM采用革命性的两阶段扩散过程:通过注入噪声系统地破坏干净文本,然后学习通过迭代去噪来逆转这个过程。这种范式转变实现了**并行词元生成、双向上下文建模以及前所未有的文本生成可控性**,解决了自回归方法诸如逆转诅咒等根本局限性,同时为细粒度内容控制开辟了新的可能性。

扩散如何改变语言生成

扩散语言模型通过**噪声到文本的转换过程**而非顺序词元预测,从根本上重新构想了文本生成。这种方法包含两个互补的阶段,与DALL-E和Stable Diffusion等图像扩散模型的成功经验相呼应。

**正向扩散过程**通过在T个时间步长内逐步破坏干净文本,系统地破坏文本结构。对于离散文本词元,这涉及使用分类转换矩阵,以精心设计的概率将原始词元替换为噪声或掩码词元。最先进的方法,**离散去噪扩散概率模型(D3PM)**,采用转换矩阵Q_t,其中每个词元都可以以精心设计的概率更改为其他词汇项。替代方法将离散词元映射到连续嵌入空间,并根据方程x_t = √(α_t) x_{t-1} + √(1-α_t) ε应用高斯噪声,但这需要仔细处理离散-连续边界。

**逆向扩散过程**代表了核心创新,神经网络学习逐步去噪被破坏的文本,使其恢复到原始形式。与自回归模型在给定先前上下文的情况下预测下一个词元不同,扩散模型在每个去噪步骤中预测原始干净文本应该是什么。这在数学上被公式化为学习p_θ(x_{t-1} | x_t),其中模型必须逐步逆转破坏过程。

最近的突破,如**分数熵离散扩散(SEDD)**,通过建模数据分布之间的比率而非绝对概率,彻底改变了这一过程。SEDD不是直接建模p_θ(x),而是学习具体分数s_θ(x)_y ≈ p_data(y)/p_data(x),消除了难以处理的归一化常数,并实现了比先前扩散方法**25-75%的困惑度改进**。

架构创新带来新能力

现代DLM利用Transformer架构,并对扩散过程进行了关键修改。**扩散Transformer(DiT)**通过正弦时间嵌入和自适应层归一化(adaLN)将时间步长条件引入标准Transformer块。每个层接收损坏的文本序列和当前时间步长,使模型能够根据噪声水平调整其去噪策略。

**LLaDA(带掩码的大型语言扩散)**于2025年2月发布,是首个从头开始训练的80亿参数DLM,展示了扩散架构的可扩展性。LLaDA采用**掩码扩散过程**,其中正向过程在预训练期间以t ~ U[0,1]的比例随机掩码词元,而逆向过程使用普通的Transformer同时预测所有掩码词元。这种方法实现了与**LLaMA3 8B相媲美的性能**,同时独特地解决了困扰自回归模型的逆转诅咒问题。

最重要的架构进步来自**混合方法**,如HART(混合自回归Transformer),它结合了自回归模型用于全局结构和扩散细化用于局部细节。这种架构与纯扩散模型相比,实现了**4.5-7.7倍的更高吞吐量和3.1-5.9倍的更低延迟**,同时保持了相对于纯自回归方法的质量优势。

性能飞跃标志着突破性的一年

2024-2025年是DLM发展的分水岭,多项突破性进展表明其性能可与现有自回归模型相媲美。**Google的Gemini Diffusion**在Google I/O 2025上亮相,首次实现了与自回归模型的商业级性能持平,文本生成速度达到**每秒1479个词元**,比同类模型快五倍。

Gemini Diffusion的基准测试性能揭示了其优势和当前局限性。该模型**在编码任务上超越了Gemini 2.0 Flash-Lite**(LiveCodeBench上分别为30.9%对28.5%),并展示了强大的数学推理能力。然而,它在GPQA Diamond等复杂推理任务(40.4%对56.5%)和Global MMLU等通用知识基准(69.1%对79.0%)上表现出性能差距,这表明在这些领域,顺序推理仍然具有优势。

**SEDD在ICML 2024获得最佳论文奖**,表彰其对离散扩散理论的根本性贡献,而实际实现表明其生成困惑度比GPT-2**提高了6-8倍**,网络评估次数减少了32倍。同时,**DiffuGPT和DiffuLLaMA**等转换方法(被ICLR 2025接受)表明,现有自回归模型可以通过少于200B词元成功适应扩散范式,为利用现有模型投资开辟了途径。

相较于自回归方法的根本优势

DLM提供了引人注目的优势,解决了顺序生成模型的核心局限性。**并行词元生成**允许DLM同时生成整个文本块,而不是一次一个词元,尽管需要多个去噪步骤,但可能加快长序列的生成速度。

**双向上下文建模**可能是最重要的优势。虽然自回归模型由于因果掩码只能依赖之前的词元,但DLM可以在生成过程中整合整个序列上下文的信息。这种能力对于需要全局连贯性的任务至关重要,并自然地支持**文本填充和编辑**应用。

**增强的可控性**源于迭代细化过程,允许在每个去噪步骤中对生成属性进行细粒度控制。Diffusion-LM成功演示了同时控制六个不同文本属性的能力,而迭代过程提供了自然的质量调节旋钮——用户可以通过调整去噪步骤的数量来权衡速度和质量。

关键的是,DLM解决了影响自回归模型的**逆转诅咒**。当GPT模型在需要逆转学习关联的任务上(例如在“A训练了B”上训练后生成“B被A训练”)表现不佳时,LLaDA在逆转任务上表现出卓越的性能,**在逆转诗歌补全基准测试中超越了GPT-4o**。

当前局限性需要持续发展

尽管取得了突破性成就,DLM仍面临重大挑战,阻碍其立即广泛采用。**计算效率**仍然是一个问题,尽管在并行生成方面具有理论优势,但大多数当前实现所需的计算量比优化后的自回归模型高2-10倍。

**训练复杂性**超过了自回归方法,需要仔细调整噪声调度、损失权重和正则化策略。离散-连续性差距带来了持续的挑战,因为将连续扩散数学应用于离散文本词元需要复杂的变通方法,如分数匹配或嵌入空间转换。

**在复杂推理任务上性能差距依然存在**,逻辑思维的顺序性可能天然有利于自回归方法。虽然DLM在需要全局连贯性和可控性的任务上表现出色,但目前在多步推理基准测试中落后于大型自回归模型(GPT-4、Claude)。

**基础设施限制**加剧了部署挑战,因为当前的机器学习基础设施针对自回归模式进行了优化,使用了KV缓存等技术,这些技术不直接适用于扩散模型。生产部署需要专门的服务系统和推理优化。

竞争格局正在迅速演变

扩散语言模型领域在学术机构和行业实验室的创新下蓬勃发展。**斯坦福大学的SEDD**为离散扩散奠定了理论基础,而**香港大学的DiffuGPT/DiffuLLaMA系列**则展示了被ICLR 2025接受的实用扩展方法。

**Google DeepMind引领商业开发**,其Gemini Diffusion是首个生产就绪的DLM,尽管仍处于实验测试阶段。该模型实现与自回归模型性能持平,标志着首席科学家Jack Rae所说的该领域的“里程碑时刻”。

**开源发展**加速了研究的采用,多种模型可供使用,包括SEDD实现、LLaDA以及DiffuGPT/DiffuLLaMA系列。这些发布使得研究人员能够在无需从头训练所需的大量计算资源的情况下探索扩散方法。

**混合架构**作为一种有前景的中间地带出现,HART和AR-Diffusion等模型结合了自回归和扩散的优势。这些方法比纯扩散模型效率更高,同时保持了纯自回归模型的优势。

未来方向预示着能力扩展

DLM的发展轨迹指向了几个可能重塑语言AI的变革性方向。**多模态集成**代表着最直接的机会,VideoLLaMA 2和SyncFlow等模型展示了音频-视频-文本联合生成能力,利用了扩散模型对跨模态并行、协调生成的自然支持。

通过专家混合(MoE)和状态空间模型集成等技术实现的**扩展效率**可以解决当前的计算限制,同时保持扩散模型的优势。**流匹配**方法在更高效的训练和采样方面显示出潜力,通过整流流减少所需的去噪步骤数量,同时保持生成质量。

**科学应用**显得尤为有前景,扩散模型的双向建模和迭代细化能力与科学写作、代码生成和结构化内容创建任务高度契合。在**分子生成和材料科学**方面的早期成果表明,DLM可能成为科学发现的重要工具。

**实时应用**有待于采样效率和专用硬件加速方面的突破性发展。流式扩散算法和专用推理硬件的开发可能使对话式AI应用能够利用扩散模型的可控性优势。

结论

扩散语言模型在Google的Gemini Diffusion展示其商业可行性和与自回归模型的竞争性能后,达到了一个关键的拐点。这种范式在并行生成、双向上下文建模和细粒度可控性方面具有独特优势,解决了顺序方法的根本局限性。

尽管在计算效率、训练复杂性和推理任务性能方面仍存在挑战,但2024-2025年的快速进展表明这些局限性是可克服的工程挑战,而非根本性障碍。混合架构的出现、LLaDA等模型的成功扩展以及SEDD等理论进步,将DLM定位为特定应用的补充且可能更优越的方法。

该领域正处于十字路口,持续的投入和发展可能将扩散建立为可控、高质量文本生成的首选范式,而混合方法最终可能结合自回归和扩散方法的最佳方面。对于实践者和研究人员而言,DLM不仅仅是现有方法的一种替代,更是一种从根本上不同地思考语言生成的方式,为需要复杂控制、创造力和连贯性的AI应用开辟了新的可能性。

社区

注册登录 发表评论