在没有外部监督的情况下训练推理模型
- 论文:《正确的问题已是成功的一半:完全无监督的大语言模型推理激励》
- Arxiv:https://arxiv.org/pdf/2504.05812 (首次发布于2025年4月8日)
- GitHub:https://github.com/QingyangZhang/EMPO

动机
现有增强大型语言模型推理能力的方法主要依赖于监督微调(SFT),然后对特定推理数据进行强化学习(RL)。这些方法严重依赖于外部监督——例如标注的推理轨迹、经过验证的正确答案或预训练的奖励模型。在这项工作中,我们提出了熵最小化策略优化(Entropy Minimized Policy Optimization, EMPO),首次尝试完全无监督的大语言模型推理激励。通过在潜在语义空间中不断最小化大语言模型在无标签问题上的预测熵,EMPO在数学和自由形式的自然推理任务上都取得了与监督方法相媲美的性能。EMPO的关键特性是:
- 完全无监督:EMPO直接使用强化学习训练基础模型,跳过SFT或指令微调,避免了对人工标注答案的任何需求。
- 任务通用性:在每次迭代中,它从模型中采样多个响应,根据语义相似性将它们分组为聚类,并将这些语义聚类的概率用作奖励信号来驱动学习。这使得EMPO适用于数学以外的通用推理任务。通过不断最小化语义层面的响应不确定性(熵),它克服了固定答案格式所带来的限制。
核心思想:
我们提出利用语义熵作为无监督优化目标,以激励LLM的推理能力。语义熵是经典香农熵对LLM的自然且有原则的扩展。语义熵与模型准确率有很强的负相关性,因此可以作为近似最小化目标。给定一个输入问题,我们首先从当前模型中采样一组输出,然后将它们合并为一组意义簇。一旦建立了这样的意义集,EMPO通过奖励包含高似然意义的输出,从而近似最小化语义熵。
性能:
在没有任何监督信号的情况下,EMPO将Qwen2.5-Math-7B Base在数学基准测试上的准确率从30.7%提升到48.1%,并将Qwen2.5-7B Base在MMLU-Pro上的准确率从32.1%提升到50.1%。见解:EMPO的成功表明,纯粹源自模型最小化语义熵以实现输出更高一致性的内在奖励信号,对于这种激发过程具有惊人的效力。在一个经过良好预训练的模型中,语义一致的输出更可能与正确且连贯的推理对齐。EMPO通过激励模型偏好这类一致性输出来利用这一点,有效地引导它在不要求外部验证正确性的情况下,从其现有推理策略集合中细化选择。
见解:无监督学习在激发预训练推理能力中的作用
为了剖析强化学习(RL)后训练所带来的改进性质,我们研究了它对pass@k准确率的影响。这个指标至关重要,因为最近的研究表明,RL可能不会从根本上扩展LLM固有的推理能力,使其超越预训练基础中已有的能力。如下图所示,我们的发现与这一观点一致。与基础模型相比,GRPO和EMPO都显著提高了k值较小到中等(例如,k=16或32)时的pass@k分数。这表明,在较少的尝试次数下,模型能够更有效地揭示正确的推理路径。然而,当k值变得相当大时,这些经过RL训练的模型性能趋于与基础模型趋同,有时甚至被基础模型超越。
在高k值时的这种趋同,加上我们定性观察到基础模型本身已经表现出复杂的推理行为,如暂停、自我纠正和回溯(参见附录中的示例),强烈表明基础推理路径在很大程度上是预先存在的。因此,RL后训练,无论是监督的还是像EMPO这样的无监督的,似乎主要旨在提高模型有效访问、优先选择并持续选择这些潜在推理模式的能力,而不是灌输根本性的新模式。观察到的pass@1(准确率)改进很可能是这种采样效率提高的结果。
这些来自pass@k分析的实证见解为新兴的共识提供了相当大的支持,即预训练承担了赋予LLMs核心能力的主要负担。我们将我们的解释与先前工作的见解保持一致:“预训练完成了所有艰苦的工作。一个重要的假设是,预训练阶段赋予了基础LM所有能力,而微调仅仅像是一种风格迁移,将模型定位到正确的输出空间。” 在这个推测(或更准确地说,是一个新兴但尚未被普遍接受的共识)下,我们将我们方法的有效性归因于Qwen2.5基础模型强大的预训练过程:如果一个基础模型具有强大的固有推理能力,那么随后的挑战不一定是它从头开始学习新的推理技能,而是有效地激发和引导这些现有技能。
EMPO 的成功表明,纯粹来自模型最小化语义熵并从而在输出中实现更高一致性的内在奖励信号,对于这种激发过程具有惊人的效力。在一个经过良好预训练的模型中,语义一致的输出更有可能与正确且连贯的推理对齐。EMPO 利用这一点,通过激励模型偏好此类一致的输出,有效地引导其在不需要外部验证正确性的情况下,从其现有推理策略集合中精炼选择。
总而言之,尽管包括EMPO在内的强化学习技术可能无法创造出超越预训练所提供的全新基本推理能力,但它们在显著提高访问这些预训练能力的采样效率和可靠性方面具有至关重要的实际意义。优化模型以实现这种效率对于实际应用至关重要。我们的EMPO通过完全无监督的框架实现这一点,为解锁和完善预训练大型语言模型中蕴藏的巨大推理潜力提供了一种特别可扩展、经济高效且实用的方法,尤其是在监督数据稀缺或获取成本过高的领域。