Argunauts 训练第二阶段:逐行自博弈微调

社区文章 发布于 2025 年 2 月 19 日

训练有素并非与生俱来,而是通过训练发展而来。

—— 吉尔伯特·赖尔,《心的概念》

导言

本文档记录了我们如何通过对 Argunaut-1-8B-SFT 进行**自博弈微调**来创建 DebateLabKIT/Llama-3.1-Argunaut-1-8B-SPIN 的过程。

**目标**是提高模型在使用 Argdown 方面的流畅性和灵活性,以及遵循元推理指令的能力。此外,我们寻求尽可能恢复之前在 Argunauts SFT mix 上进行持续预训练期间丢失的技能。所面临的挑战是,如何在严格有限的训练示例和演示下实现这一目标。

或者,用赖尔的话说,我们现在正超越“演练”,开始真正的“训练”。

训练 Llama-3.1-Argunaut-1-8B-SPIN 是 Argunauts 项目的一部分

☑️ Argunauts:动机与目标 ↪
☑️ 第一阶段:SFT 训练 ↪
✅ **第二阶段:✨逐行自博弈微调✨**

什么是自博弈微调(SPIN)?

自博弈微调(SPIN)是大约一年前在《自博弈微调将弱语言模型转化为强语言模型》中引入的一种方法。作者表明,SPIN 比 SFT 更高效:仅通过约 10% 的数据训练即可达到与 SFT 相同的熟练程度。

为什么会这样?

这是我的独特、比喻性和非技术性解释。

通过 SFT 训练,我们向模型展示了大量包含问题和解决方案的例子。模型最终试图“死记硬背”所有这些例子。(交叉熵损失!)当然,这并非我们希望它做的,因此我们向模型提供了如此众多多样的例子,以至于它“超负荷”地记忆这些例子的详细信息,从而被迫学习这些例子背后的抽象、更一般的结构,最终使其无需简单地回忆答案即可正确回答更多问题。

SPIN 则不然。

通过 SPIN 训练,我们首先只揭示问题,并指示模型自行回答。我们选择模型生成的一个候选答案,并告知模型正确答案优于其自生成的答案。然后,模型从这些信息中学习,将其自己的答案与真实值进行比较,而无需尝试记住正确答案。在另一轮中,我们可以再次指示模型回答之前尝试回答的问题;由于模型没有记住答案,它可能会提出一个仍与正确答案不同的解决方案,我们提供正确答案,模型从这种成对比较中学习。

这种非技术性类比在一定程度上解释了为什么 SPIN 训练应该比 SFT 训练更高效。此外,从教育角度来看,SPIN 显然比 SFT 对应着一种更具吸引力的学习范式

训练数据

DPO 数据集为每个提示包含两个答案:一个被选择的和一个被拒绝的。相比之下,自博弈数据集每个提示只需要一个(正确)答案,就像经典的指令遵循 SFT 数据集一样。在 SPIN 中,模型会自行(在线)生成更多候选答案,这些答案将作为被拒绝的答案,从而允许进行 DPO 训练。这也是我们可以在训练 Llama-3.1-Argunaut-1-8B-SPIN 时**混合**自博弈数据集和经典偏好数据集的原因(另请参阅下文训练课程)。

train_mixture:
    - path: DebateLabKIT/argdown_line-by-line
      config_name: critical-thinking-ten-arguments
      type: selfplay
    - path: DebateLabKIT/argdown_line-by-line
      config_name: argument-analysis-textbook
      type: selfplay
    - path: DebateLabKIT/argdown_line-by-line
      config_name: classic-philosophical-arguments
      type: selfplay
    - path: DebateLabKIT/argdown_line-by-line
      config_name: synthetic_corpus-001
      type: selfplay
    - path: DebateLabKIT/argdown_line-by-line
      config_name: argdown-docs-guide
      type: selfplay
    - path: DebateLabKIT/argdown_line-by-line
      config_name: z3-docs-logic
      type: selfplay
    - path: DebateLabKIT/argument_mapping_dpo_pairs
      type: preference
    - path: allenai/llama-3.1-tulu-3-70b-preference-mixture
      type: preference

逐行 Argdown

我收集了我的教学材料和包含 Argdown 论证重建的预印本。其中一些书本长度。此外,我们重新重建并注释了来自“Just the arguments”(Bruce/Barbone)的经典哲学论证分析。然而,总的来说,这加起来还不到 1000 个论证重建。而这可能还不够,即使对于 SPIN 来说也不够。

因此,我们想出了一个办法,将每个 Argdown 代码片段(通常包含一个论证重建)逐行拆分。我们不再要求模型生成一个包含完整论证重建的完整 Argdown 片段,而是要求它在给定不完整片段中**只生成下一行**。这增加了示例的数量,再加上 Argdown 文档作为额外来源,我们轻松拥有了超过 5k 个训练项。在此基础上,我正在添加来自 `deep-argmap-conversations` 的逐行训练示例。

逐行拆分 Argdown 代码片段不仅具有增加训练数据集的实用好处,也符合训练中间步骤高度可取的见解。Phi-4 团队最近通过识别推理轨迹中的中间“关键标记”完善了这种方法,使他们能够对单个标记对执行 DPO。从“所有行”(我们)到“关键标记”(Phi-4)还有很长的路要走——但想法是一样的。

逐行 Z3

Argunauts 还应掌握与 Argdown 相关的 Z3,例如用于检查演绎有效性。为了提高他们对 Z3 的熟练程度,我们从官方文档的逻辑教程中收集了所有 Z3 代码片段,包括它们的上下文,并构建了一个适用于 SPIN 训练的逐行数据集。

Logikon 论证映射对

Logikon AI 发布了其流程,该流程借助通用因果 LLM 和分类器将任意文本重建为模糊论证图。

我们正在收集各种论证性文本,从普通人的药物评论和 BBC 新闻到最高法院判决。

对于每个论证性文本,我们使用强(70B)和弱(8B)模型运行 Logikon 流程,从而获得两个替代论证图。

为了创建偏好对,我们假设强模型的论证图优于弱模型的论证图。

Tülu 3 偏好数据

我们慷慨地混合了 Tülu 3 偏好数据,以避免遗忘、反向学习和过度专业化。

训练课程

我们没有一次性将所有训练数据投入模型,而是制定了一个训练课程,松散地借鉴了教育研究的见解。

训练分为连续的 epoch。通过在模型在特定子数据集上训练的阶段和完全看不到该子数据集的阶段之间切换,我们进一步希望避免间接记忆效应,并允许模型重新访问过去未能解决的任务,并利用其在此期间可能获得的新技能。

我们针对 `Llama-3.1-Argunaut-1-8B-SPIN` 的 SPIN 训练课程包含 12 个 epoch,分为 4 个大致相似的季度(数字表示每个数据集在相应 epoch 中的相对权重)

image/png

Epoch 1-3 和 7-9 侧重于生成和修订单个论证的详细逻辑重建。相比之下,Epoch 4-6 和 10-12 则强调非正式论证映射。Argdown 和 Z3 文档的非同步分布进一步增加了不同 epoch 之间的训练混合方差。

为了避免模型训练已经掌握的示例,我们添加了**动态任务过滤**。

For each example question Q (with correct answer A):
- model generates k candidate answers
- l of these k answers are identical with A
- with probability (1-l/k) model trains on this example (and skips it otherwise)

技术设置

每个 epoch 包括两个阶段:

  • 一个生成阶段和
  • 一个 DPO 训练阶段。

在**生成阶段**,当前的模型检查点为所有自博弈问题生成候选答案。模型掌握的问题根据*动态任务过滤*被丢弃。自博弈偏好对根据课程中指定的权重构建并与标准偏好数据集混合。这将为该 epoch 产生一个 DPO 训练集。

为了生成自博弈候选答案,我们启动了一个vLLM 推理服务器,该服务器提供当前的模型检查点,用于候选生成:

参数
k(候选数量) 5
温度 0.7

生成约 4k 个问题的 5 个候选答案只需几分钟。

在**DPO 训练阶段**,我们使用上一个*生成阶段*生成训练数据集进行标准 DPO 训练。这通过以下方式实现:

训练参数和设置,每个 epoch 相同

参数
dpo 损失 sigmoid
学习率 2e-7
学习率调度器 线性
有效批量大小 64
deepspeed ZeRO 阶段 3
deepspeed CPU 卸载 false
spectrum 目标 SNR 比例前 % 30%

训练**一个 epoch** 在 2 个 H100 上大约需要 30 分钟。

训练指标(每个 epoch 一条曲线)

image/png

评估

聊天体验

让我分享一下我与 `debatelabkit/llama-3.1-argunaut-1-8b-spin-q4_k_m.gguf` 的第一次聊天。

👤 **您**
您好,您熟悉 Argdown 吗?

🤖 **助手**
是的,我熟悉 Argdown(论证标记语言)。它是一种用于使用类似 markdown 的方法表示和构建论证的语法。使用 Argdown,您可以清晰地定义主张、论证、前提、结论和论证文本的其他组成部分,使其既可读又可机器处理。如果您有任何内容希望使用 Argdown 进行组织或构建,请随时提供!

👤 **您**
您能将以下文本进行映射吗?

校服可以遏制犯罪,提高学生安全。在加利福尼亚州长滩,实行全区 K-8 年级强制校服政策两年后,该区学校的斗殴和殴打报告下降了 34%,使用致命武器袭击事件下降了 50%,打架事件下降了 51%,性犯罪减少了 74%,抢劫下降了 65%,持有武器(或“类似武器”的物品)下降了 52%,持有毒品下降了 69%,故意破坏行为下降了 18%。[64]

内华达州斯帕克斯中学实施校服政策一年后,学校警方数据显示,警方日志报告下降了 63%,帮派活动、学生斗殴、涂鸦、财产损失和殴打事件也有所减少。一项同行评审研究发现,实行校服政策的学校,与枪支相关的事件减少了 12%,与毒品相关的事件减少了 15%,而没有实行校服的学校则没有。 [25][69]

校服还能防止学生将武器藏在宽松的衣服下,更容易在校外活动时跟踪学生,并使校园内的入侵者更容易被发现。新泽西州洛迪学区的负责人弗兰克·夸特罗内表示:“当学生穿着统一时,他们会更安全。如果有人进入建筑物,入侵者很容易被识别出来。” [6][38]

此外,校服在学生之间创造了一个公平的竞争环境,减少了同伴压力和欺凌。当所有学生都穿着统一时,学生之间在服装选择上的竞争以及对那些穿着不那么昂贵或不那么时尚的服装的学生进行嘲笑的情况就可以消除。校服协会的研究发现,83% 的教师认为“一套好的校服……可以防止基于外表或经济背景的欺凌”。北德克萨斯大学家长教育中心的创始人兼主任阿明塔·雅各布森表示,校服让“所有孩子在外观上处于同一起跑线。我认为这可能让他们产生归属感和社会认同感。” [5][91]

🤖 **助手**
我们来创建一个 Argdown 论证图来组织这段文字

School uniforms deter crime and increase student safety.
  <+ One year after Sparks Middle School in Nevada instituted a uniform policy, school police data showed a 63% drop in police log reports, and decreases were also noted in gang activity, student fights, graffiti, property damage, and battery. A peer-reviewed study found that schools with uniform policies had 12% fewer firearm-related incidents and 15% fewer drug-related incidents than schools without uniforms.
    <+ School uniforms create a level playing field among students, reducing peer pressure and bullying. When all students are dressed alike, competition between students over clothing choices and the teasing of those who are dressed in less expensive or less fashionable outfits can be eliminated.
      <+ Research by the Schoolwear Association found that 83% of teachers thought “a good school uniform…could prevent bullying based on appearance or economic background.”
    <+ In Long Beach, California, after two years of a district-wide K-8 mandatory uniform policy, reports of assault and battery in the district’s schools decreased by 34%, assault with a deadly weapon dropped by 50%, fighting incidents went down by 51%, sex offenses were cut by 74%, robbery dropped by 65%, possession of weapons (or weapon “look-alikes”) decreased by 52%, possession of drugs went down by 69%, and vandalism was lowered by 18%.
      <+ School uniforms prevent students from concealing weapons under baggy clothing, make it easier to keep track of students on field trips, and make intruders on campus more visible.
        <+ Frank Quatrone, superintendent in the Lodi school district of New Jersey, states, “When you have students dressed alike, you make them safer. If someone were to come into a building, the intruder could easily be recognized.”
      <+ Arminta Jacobson, founder and director of the Center for Parent Education at the University of North Texas, states that uniforms put “all kids on the same playing field in terms of their appearance. I think it probably gives them a sense of belonging and a feeling of being socially accepted.”

👤 **您**
请用您自己的话总结文本中提出的主要论点。请勿超过 2-3 句话。

🤖 **助手**
主要论点是校服导致学校各类事件和犯罪的减少,由于能见度提高和同伴压力减小,学生更加安全。这一结论得到了斯帕克斯中学和加利福尼亚州长滩的数据以及专家意见的支持。

👤 **您**
让我们专注于这个论点。为了记录,结论是什么?

🤖 **助手**
文本最终论证的是:校服能有效遏制犯罪并提高学生安全。

👤 **您**
您能用 argdown 语法将这个论证重构为前提-结论结构吗?

🤖 **助手**

(1) By instituting a uniform policy at Sparks Middle School, the school's police data showed a 63% drop in police log reports, along with decreases in gang activity, student fights, graffiti, property damage, and battery.
(2) A peer-reviewed study found that schools with uniform policies had 12% fewer firearm-related incidents and 15% fewer drug-related incidents than schools without uniforms.
(3) Implementing a mandatory uniform policy at Long Beach's K-8 schools led to significant decreases in various types of incidents and crimes, such as assault and battery, possession of weapons or drugs, robbery, and vandalism.
-- with ?? from (1) (2) --
(4) Schools with uniform policies tend to have fewer incidents related to weapons and drugs compared to those without uniforms.
(5) School uniforms prevent students from concealing weapons under baggy clothing.
(6) Implementing a uniform policy makes it easier to keep track of students on field trips.
(7) A uniform policy makes intruders on campus more visible.
-- with ?? from (5) (6) (7) --
(8) School uniforms are an effective measure for maintaining student safety in various scenarios, such as preventing the concealment of weapons and ensuring easier identification of students.
(9) When all students are dressed alike, competition between students over clothing choices can be eliminated.
-- with ?? from (9) --
(10) The elimination of competition due to uniform policies reduces peer pressure and bullying among students.
-- with ?? from (4) (8) (10) --
(11) School uniforms deter crime and increase student safety.

👤 **您**
这太复杂了。从2或3个前提开始就好。

🤖 **助手**
让我简化一下论证

实行校服政策的学校,与没有校服的学校相比,与武器和毒品相关的事件往往较少。在长滩的 K-8 学校实行强制校服政策,导致各种事件和犯罪显著减少,例如斗殴和殴打、持有武器或毒品、抢劫和故意破坏。当所有学生都穿着统一时,学生之间在服装选择上的竞争可以消除。这些前提得出校服能遏制犯罪并提高学生安全的结论。

👤 **您**
请用 argdown 渲染此内容。

🤖 **助手**

(1) Schools that implement uniform policies tend to have fewer incidents related to weapons and drugs compared to those without uniforms.
(2) Implementing a mandatory uniform policy at Long Beach's K-8 schools led to significant decreases in various types of incidents and crimes, such as assault and battery, possession of weapons or drugs, robbery, and vandalism.
(3) When all students are dressed alike, competition between students over clothing choices can be eliminated.
-----
(4) School uniforms deter crime and increase student safety.

👤 **您**
这三个前提是协同作用,还是我们有三个独立的论证?

🤖 **助手**
给定的前提没有直接连接形成一个单一的论点。它们代表了可以支持不同结论或作为各种论点一部分的独立前提。

我们可以看到

前提(1)可能是关于校服政策在减少与武器和毒品相关事件方面的有效性的论证的一部分。前提(2)支持了实行校服政策导致各类事件和犯罪减少的观点。前提(3)表明,消除对服装选择的竞争可以减少同伴压力和欺凌。为了将这些结合成一个单一的论证,我们需要额外的论据或中间结论来将它们联系起来。目前,它们是可以在不同论证中单独使用的不同论据。

👤 **您**
我们来专注于前提 (1),并从论证中删除 (2) 和 (3)。请渲染由此产生的单前提论证。

🤖 **助手**

[Conclusion 1]: Schools with uniform policies tend to have fewer incidents related to weapons and drugs compared to those without uniforms.
    <+ <Subargument 1>
        <+ [Premise]: Schools that implement uniform policies tend to have fewer incidents related to weapons and drugs compared to those without uniforms.

👤 **您**
好的,那用标准形式(前提-结论结构)表示会是怎样?

🤖 **助手**

(1) Schools that implement uniform policies tend to have fewer incidents related to weapons and drugs compared to those without uniforms.
-- with ?? from (1) --
(2) Schools with uniform policies tend to have fewer incidents related to weapons and drugs compared to those without uniforms.

这个简化后的论证着重于关于校服学校与没有校服的学校相比,与武器和毒品相关的事件更少这一前提,直接得出结论。

这似乎比 `Argunaut-1-8B-SFT` 基础模型更灵活,更不固执,更不教条。

指标

我们评估 `DebateLabKIT/Llama-3.1-Argunaut-1-8B-SPIN` 在三个基准上的表现

Llama-3.1-8B-Instruct Argunaut-1-8B-SFT Argunaut-1-8B-SPIN
⬇️ **Argdown 基准测试**
pass@1 80.8 98.9 79.5
pass@5 98.9 99.8 94.5
图相似度 8.4 65.5 34.3
同构 1.3 44.0 17.1
🤗 **HF 排行榜**
MMLU pro 37.6 34.5 35.9
MUSR 40.1 41.6 41.6
GPQA Diamond 32.8 30.8 31.8
GPQA Main 28.5 32.1 30.8
MATH 12.5 9.1 11.1
BBH 54.7 48.2 49.8
⛓️ **COT 排行榜**
LogiQA 5.9 1.4 5.8
LogiQA2 15.5 0.8 9.2
LSAT-ar 11.7 3.0 6.5
LSAT-lr 20.8 3.9 12.9
LSAT-rc 27.5 13.8 21.2

↘️ **Argdown Bench** 的结果不如 Argunaut-1-8B-SFT 基础模型那么出色,但仍证实了聊天印象:Argunaut-1-8B-SPIN 总的来说掌握了 Argdown 语法和语义。

↗️ 在 **HF 排行榜**任务中,Argunaut-1-8B-SPIN 模型的表现至少与 SFT 模型一样好,或者与原始 Llama-3.1-8B-Instruct 一样好——略有改进。

↗️ **COT 排行榜**结果突出了 SPIN 训练最显著的可衡量效果:Argunaut-1-8B-SPIN 恢复了(尽管未完全恢复)其生成有效 CoT 推理轨迹的能力。

后续步骤

未来训练阶段的期望是:确保 Argunauts 编写 100% 合法的 Argdown 代码;测试并提高使用逻辑工具的能力;进一步完善 Argdown 的流畅性和指令遵循。所有这些都必须以最少的额外训练数据实现 (🚀RLVR)。

所以,将来的训练会更少“演练”,更多“训练”。😉

社区

注册登录以发表评论