通过内部一致性最大化实现无监督模型改进:通过自我启发超越人类监督方法
代码: https://github.com/codelion/icm
模型与数据集: https://huggingface.co/collections/codelion/internal-coherence-maximization-687a1bd1c1f5f1d6f76e9b3b
摘要
我们提出了一种将内部一致性最大化(ICM)与直接偏好优化(DPO)相结合的新方法,以在没有任何人工监督或奖励模型的情况下提升语言模型的能力。我们的方法实现了完整的ICM方法,并正确生成了多样化的解决方案,证明了无监督偏好学习可以超越人类监督方法。我们展示了两个关键贡献:(1)ICM+DPO在数学推理任务上取得了优于群组相对策略优化(GRPO)的性能,以及(2)成功地将能力从强模型(Qwen3)跨模型迁移到弱模型(Gemma3)。我们的方法将数学推理性能提高了高达11%,同时无需任何人工标注,为传统的RLHF管线提供了一个可扩展的替代方案。
1. 引言
当前对齐语言模型的范式严重依赖于通过人类反馈强化学习(RLHF)或直接偏好优化(DPO)等偏好学习方法进行的人工监督。虽然这些方法有效,但它们面临着显著的可扩展性挑战:
- 昂贵的人工标注:高质量的偏好数据需要专业标注人员
- 不一致的人工判断:人类偏好常常相互冲突,尤其是在复杂任务上
- 奖励模型局限性:代理奖励模型可能无法捕捉真实的人类价值观
- 领域特定专业知识:某些任务需要超出典型标注人员的专业知识
为了解决这些局限性,出现了替代方法,包括使用AI反馈而非人类反馈的宪法AI [Bai et al., 2022],以及弱到强泛化方法,它们展示了弱监督如何激发强能力 [Burns et al., 2023]。通过一致性属性发现潜在知识的方法也表明,模型包含与它们明确表达的知识不同的知识 [Burns et al., 2022]。
最近关于内部一致性最大化(ICM)的工作 [Wen et al., 2025] 提出了一种替代方案:通过寻找连贯的、相互可预测的标签分配,从预训练模型中激发能力,而无需外部监督。这建立在越来越多探索能力激发的工作之上,包括通过一致性属性发现潜在知识的方法 [Burns et al., 2022]、弱到强泛化 [Burns et al., 2023] 以及使用AI反馈而非人工监督的宪法AI方法 [Bai et al., 2022]。此外,理论工作表明,通过监督微调获得的能力可以通过推理时技术近似 [Sharma, 2025]。然而,原始ICM实现存在关键限制,阻碍了其实际应用。
我们的贡献
- 完整的ICM实现:我们实现了完整的ICM方法,并为数学推理任务正确生成了多样化的解决方案。
- 新颖的ICM→DPO管线:我们引入了一种将ICM结果转换为偏好对以进行直接模型优化的方法。
- 实证验证:我们证明了无监督ICM+DPO在数学推理方面优于监督GRPO。
- 跨模型迁移:我们展示了从强模型(Qwen3)到弱模型(Gemma3)的能力成功迁移。
- 开放资源:我们发布了所有代码、数据集和训练模型,以实现可复现研究。
2. 背景与动机
2.1 内部一致性最大化
ICM,由Wen et al.提出,旨在通过寻找最大化以下内容的标签分配来从预训练模型中激发潜在能力:
U(D) = α × P_θ(D) - I(D)
其中:
P_θ(D)
:相互可预测性 - 每个标签能从其他标签中被预测的程度I(D)
:逻辑不一致性惩罚α
:平衡超参数
关键在于,预训练模型已经包含了丰富的人类概念表示,但难以始终如一地表达它们。ICM寻找最符合模型内部理解的标注方案。
2.2 多样化解决方案生成的实现要求
我们的分析显示,成功将ICM应用于数学推理需要仔细实现论文中描述的多样化解决方案生成过程。原始ICM论文指出:“对于每个问题,我们从LM中抽取多个解决方案。任务是将每个解决方案分类为正确或不正确。”然而,一个简单的实现可能只使用原始GSM8K解决方案。
# Naive approach (insufficient for ICM)
def _convert_gsm8k(examples):
for example in examples:
question = example.get("question", "")
answer = example.get("answer", "") # ← Uses only original correct answer
input_text = f"Question: {question}\nClaim: {answer}\nI think this Claim is [True/False]"
metadata = {
"gold_label": "True", # ← All examples would be labeled as True!
}
这种方法:
- 只使用原始GSM8K解决方案(全部正确)
- 没有为有意义的验证学习提供多样性
- 导致数据集严重不平衡,不适合偏好学习
关键在于,ICM需要多样化的候选解决方案来找到连贯的真/假模式,而不仅仅是原始的正确解决方案。
3. 方法论
3.1 结合多样化解决方案生成的ICM实现
我们实现了论文中描述的完整ICM方法,并正确生成了多样化的解决方案。
def create_diverse_verification_dataset(questions, model, num_solutions_per_question=8):
verification_examples = []
for question in questions:
# Generate diverse solutions with varying parameters
solutions = []
for i in range(num_solutions_per_question):
# Vary temperature and prompts for diversity
temperature = 0.3 + (i * 0.2) # Range: 0.3-1.7
solution = generate_solution(question, model, temperature)
solutions.append(solution)
# Create verification examples
for solution in solutions:
verification_example = ICMExample(
input_text=f"Question: {question}\nClaim: {solution}\nI think this Claim is [True/False]",
metadata={"question": question, "solution": solution}
)
verification_examples.append(verification_example)
return verification_examples
这生成了一个平衡的数据集,ICM可以在其中学习区分正确和不正确的数学推理。
3.2 ICM→DPO管线
我们开发了一种新颖的管线,将ICM结果转换为DPO训练的偏好对。
def create_dpo_pairs_from_icm(icm_results):
dpo_pairs = []
# Group results by question
question_groups = group_by_question(icm_results.labeled_examples)
for question, examples in question_groups.items():
# Separate by ICM labels
chosen_solutions = [ex for ex in examples if ex['label'] == 'True']
rejected_solutions = [ex for ex in examples if ex['label'] == 'False']
# Create all possible preference pairs
for chosen in chosen_solutions:
for rejected in rejected_solutions:
dpo_pairs.append({
"prompt": question,
"chosen": extract_solution(chosen['input']),
"rejected": extract_solution(rejected['input'])
})
return dpo_pairs
3.3 训练配置
ICM参数
alpha = 50.0
(强调相互可预测性)initial_temperature = 8.0
generation_temperature = 0.3
(用于一致的教师输出)max_iterations = 500
DPO参数
beta = 0.1
(DPO温度)learning_rate = 5e-7
num_train_epochs = 2
per_device_train_batch_size = 2
4. 实验设置
4.1 模型
我们评估了两种模型系列的方法:
- Qwen3-0.6B:强大的数学推理基线模型
- Gemma3-1B:较弱的数学推理基线模型
4.2 数据集
训练数据
- GSM8K:8,792道小学数学应用题
- 生成解决方案:每道题8个多样化解决方案(共70,336个)
- ICM数据集:平衡的真/假验证标签
- DPO对:从ICM结果中生成的15,432个偏好对
评估基准
- MATH-500:数学推理(主要目标)
- AIME-24:高级数学竞赛
- Arena Hard Auto:通用推理能力
- OptiLLMBench:优化和逻辑推理
4.3 基线
我们与群组相对策略优化(GRPO)进行了比较,这是一种基于人类偏好的最先进方法,它:
- 使用人工标注的偏好数据
- 采用基于人类反馈训练的奖励模型
- 代表当前的监督学习范式
5. 结果
5.1 主要结果
模型 | 方法 | MATH-500 | AIME-24 | Arena Hard | OptiLLMBench |
---|---|---|---|---|---|
Qwen3-0.6B | 基础版 | 63.2 | 10.0 | 12.2 | 51 |
ICM-DPO | 66.0 | 6.67 | 8.4 | 54 | |
GRPO | 64.2 | 10.0 | 7.2 | 53 | |
Gemma3-1B | 基础版 | 41.0 | 0.0 | 84.4 | 18 |
ICM-DPO | 45.6 | 0.0 | 7.0 | 44 |
5.2 主要发现
🎯 发现1:ICM+DPO优于监督GRPO
在目标领域(数学推理)中,我们的无监督方法实现了:
- Qwen3:66.0 对 64.2(比GRPO高1.8分)
- 在没有任何人工监督的情况下表现更佳
🔄 发现2:成功的跨模型能力迁移
Gemma3 显示出显著改进:
- MATH-500:41.0 → 45.6(相对提高11%)
- OptiLLMBench:18 → 44(相对提高144%!)
这表明ICM可以从Qwen3中提取连贯的数学推理能力,并成功将其迁移以改进Gemma3。
⚖️ 发现3:专业化权衡
正如领域专业化所预期的那样:
- 目标领域改进:数学推理能力显著提升
- 通用能力权衡:通用推理任务上有所下降
- 保持高级推理能力:AIME性能得以保留
5.3 ICM数据集质量分析
我们固定的ICM实现生成了
- 总示例数:70,336个验证实例
- 真/假分布:约60%为真,40%为假(平衡)
- 解决方案多样性:每个问题有多个推理路径
- 连贯标签:相互可预测的验证决策
ICM生成偏好对示例
{
"prompt": "Question: Ed has 2 dogs, 3 cats and twice as many fish as cats and dogs combined. How many pets does Ed have in total?",
"chosen": "Ed has 2+3 = 5 cats and dogs. So he has 2*5 = 10 fish. In total: 5+10 = 15 pets.",
"rejected": "Ed has 2 dogs and 3 cats, so 5 pets. He has twice as many fish as just cats, so 2*3 = 6 fish. Total: 5+6 = 11 pets."
}
ICM过程正确识别了被拒绝解决方案中的逻辑错误(将“猫狗总数”误解为仅“猫”)。
6. 讨论
6.1 ICM+DPO为何有效
我们的成功源于几个关键因素:
- 连贯性启发:ICM发现的标签反映了模型内部的理解,而非随机偏好。
- 直接优化:DPO直接优化了ICM发现的连贯偏好。
- 无近似误差:与RLHF不同,我们避免了奖励模型近似误差。
- 可扩展性:该方法纯粹基于模型自我理解工作。
6.2 理论含义
我们的结果表明:
- 预训练模型包含丰富的任务理解能力,无需监督即可激发。
- 对于特定领域,连贯的自我偏好比有噪声的人类偏好更有效。
- 通过连贯性启发,跨模型知识迁移是可能的。
这些发现与最近关于弱到强泛化的工作相符,该工作表明强模型可以超越其弱监督者 [Burns et al., 2023]。我们的方法通过消除对任何外部监督的需求,进一步推进了这一点,表明模型可以通过自身的连贯理解来改进。这与更广泛的语言模型潜在知识发现研究 [Burns et al., 2022] 和证明推理时技术可以近似微调能力的理论工作 [Sharma, 2025] 相关联。
6.3 实际优势
与传统的RLHF管线甚至最近的宪法AI替代方案 [Bai et al., 2022] 相比:
- ✅ 无需人工标注成本
- ✅ 无需训练奖励模型
- ✅ 可扩展到任何领域
- ✅ 与模型内部理解保持一致
- ✅ 在目标任务上表现更佳
6.4 局限性与未来工作
当前局限性
- 领域专业化可能降低通用能力
- 需要正确实现ICM的多样化解决方案生成
- 限于预训练模型具有潜在能力的任务
未来方向
- 多领域ICM:在单次训练中结合多个领域
- 参数高效方法:使用LoRA保留通用能力
- 迭代改进:多轮ICM→DPO精炼
- 其他任务领域:代码生成、推理、创意写作
7. 可复现性与资源
所有资源均公开可用,以便进行可复现研究。
📦 Hugging Face 合集
包含:
- 🤖 训练模型:Qwen3-ICM-DPO,Gemma3-ICM-DPO
- 📊 数据集:ICM验证数据,DPO偏好对
- 📈 评估结果:基准分数和分析
💻 GitHub 仓库
https://github.com/codelion/icm
功能
- ✅ 完整的ICM实现:具备多样化解决方案生成的正确方法
- ✅ ICM→DPO管线:端到端训练代码
- ✅ 评估脚本:基准评估工具
- ✅ 文档:完整的设置和使用指南
📋 快速入门
# Install ICM
git clone https://github.com/codelion/icm.git
cd icm && pip install -e .
# Generate ICM dataset
icm run --model Qwen/Qwen2.5-Math-7B-Instruct --dataset gsm8k --task-type gsm8k --max-examples 1000
# Convert to DPO format
icm export --input-path icm_results/gsm8k_*.jsonl --output-path dpo_data.jsonl --format dpo
# Train with DPO (using your preferred framework)
python train_dpo.py --data dpo_data.jsonl --model google/gemma-3-1b-it
8. 结论
我们已经证明,通过内部一致性最大化实现的无监督偏好学习可以在数学推理任务上超越人类监督方法。我们的贡献包括:
- 方法论创新:完整的ICM实现,具备多样化解决方案生成和新颖的ICM→DPO管线
- 实证验证:展示了ICM+DPO在无人监督下优于GRPO
- 能力迁移:证明了成功的跨模型知识迁移
- 开放科学:发布了所有资源以实现可复现研究
我们的工作为无需人工监督的可扩展模型改进开辟了新的可能性,可能改变我们对齐和改进跨不同领域的语言模型的方式。
关键的洞察是,预训练模型已经理解了复杂的概念——我们只需要更好的方法来启发和完善这种理解。ICM提供了一种原则性的启发方法,而DPO则提供了一种有效的方法来基于这些发现优化模型。
随着语言模型在专业领域不断发展出超人类能力,ICM+DPO等方法对于在没有人类专业知识和标注瓶颈的情况下提高模型性能变得越来越有价值。
如有疑问、合作或希望复现这些结果,请访问我们的GitHub 仓库或浏览我们的Hugging Face 合集。
参考文献
[1] Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., Chen, C., Olsson, C., Olah, C., Hernandez, D., Drain, D., Ganguli, D., Li, D., Tran-Johnson, E., Perez, E., Kerr, J., Mueller, J., Ladish, J., Landau, J., Ndousse, K., Lukosuite, K., Lovitt, L., Sellitto, M., Elhage, N., Schiefer, N., DasSarma, N., Lasenby, R., Larson, R., Ringer, S., Johnston, S., Kravec, S., Showk, S. E., Fort, S., Lanham, T., Telleen-Lawton, T., Conerly, T., Henighan, T., Hume, T., Bowman, S. R., Hatfield-Dodds, Z., Mann, B., Amodei, D., Joseph, N., McCandlish, S., Brown, T., & Kaplan, J. (2022)。宪法AI:来自AI反馈的无害性。arXiv preprint arXiv:2212.08073。
[2] Burns, C., Ye, H., Klein, D., & Steinhardt, J. (2022)。无需监督发现语言模型中的潜在知识。arXiv preprint arXiv:2212.03827。
[3] Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., Chen, Y., Ecoffet, A., Joglekar, M., Leike, J., Sutskever, I., & Wu, J. (2023)。弱到强泛化:通过弱监督激发强能力。arXiv preprint arXiv:2312.09390。
[4] Sharma, A. (2025)。通过推理时技术激发微调Transformer的能力。arXiv preprint arXiv:2506.08060。
[5] Wen, J., Ankner, Z., Somani, A., Hase, P., Marks, S., Goldman-Wetzler, J., Petrini, L., Sleight, H., Burns, C., He, H., Feng, S., Perez, E., & Leike, J. (2025)。语言模型的无监督激发。arXiv preprint arXiv:2506.10139。