通过多目标奖励模型和专家混合解释偏好

社区文章 发布于 2024 年 9 月 29 日

https://arxiv.org/abs/2406.12845

image/png

人类反馈强化学习 (RLHF) 已成为将大型语言模型 (LLM) 与人类偏好对齐的主要方法。RLHF 过程通常从使用人类偏好数据训练奖励模型 (RM) 开始。传统的 RM 在对同一用户查询的配对响应上进行训练,相对排名表示人类更喜欢哪个响应。训练后的 RM 充当人类偏好的代理。然而,由于 RM 的黑箱性质,它们的输出缺乏可解释性,因为人类无法直观地理解 RM 为什么认为某个响应是好是坏。

由于 RM 作为人类偏好的代理,它们需要具有可解释性,以确保其内部决策过程与人类偏好保持一致,并防止在对齐 LLM 时出现奖励利用。为了构建具有可解释偏好的 RM,我们提出了一个两阶段方法:

i) 使用多维度绝对评级数据训练绝对评级多目标奖励模型 (ArmoRM),每个维度对应一个可解释目标(例如,真实性、行长、安全性);

ii) 使用专家混合 (MoE) 策略,其中一个门控网络根据上下文自动选择最相关的奖励目标。我们成功地训练了一个基于 Llama-3 8B 的 ArmoRM 和一个包含 ArmoRM 上浅层 MLP 的门控网络。我们训练的模型 ArmoRM-Llama3-8B 在 RewardBench(一个用于评估语言模型 RM 的基准)上取得了最先进的性能。值得注意的是,我们模型的性能优于使用 GPT-4 作为评判的 LLM-as-a-judge 方法,并且接近于大得多的 Nemotron-4 340B 奖励模型的性能。

在本研究中,我们探讨了奖励模型 (RM) 在人类反馈强化学习 (RLHF) 框架中的作用。RM 在对齐大型语言模型 (LLM) 方面发挥着关键作用,因为它们提供了一种可扩展的方式,将人类偏好整合到模型训练过程中,指导其策略的优化。最流行的 RLHF 框架是基于深度强化学习 (DRL) 的框架,如重要研究 [Christiano 等,2017;Ouyang 等,2022;Bai 等,2022] 中开发的那样。该框架分三个阶段运行:

  1. 收集偏好数据;

  2. 基于 Bradley-Terry 模型 [Bradley 和 Terry,1952] 对奖励进行建模;

  3. 使用近端策略优化 (PPO) [Schulman 等,2017] 和在第二阶段构建的奖励模型来优化策略。该框架在 ChatGPT [Ouyang 等,2022] 和 Claude [Bai 等,2022] 的训练中取得了巨大成功。这些思想也扩展到其他方法,例如拒绝采样微调 [Dong 等,2023;Gulcehre 等,2023] 和迭代直接偏好学习 [Xiong 等,2023;Guo 等,2024;Xie 等,2024]。在所有这些 RLHF 框架中,奖励模型的能力至关重要,因为它直接影响对齐 LLM 的质量。

最流行的奖励建模方法基于 Bradley-Terry (BT) 模型 [Bradley 和 Terry,1952] 的最大似然估计 (MLE)。尽管广泛使用,但 BT 模型在捕捉复杂人类偏好方面的能力相当有限 [Munos 等,2023;Swamy 等,2024;Ye 等,2024]。除了能力问题,流行的 RM(如 BT 模型)通常是黑箱模型,它们提供分数或偏好而不提供可解释的解释,使其容易受到广泛观察到的奖励利用现象 [Skalse 等,2022;Singhal 等,2023;Chen 等,2024],其中对齐的 LLM 生成的响应具有高奖励(由 RM 排名)但不符合实际人类偏好 [Gao 等,2023;Lin 等,2023;Coste 等,2023]。一个值得注意的例子是行长,其中对齐的 LLM 生成的响应比必要更长,因为 RM 优先考虑长度,而不考虑质量 [Singhal 等,2023;Wang 等,2024a;Chen 等,2024]。

在这项研究中,我们旨在通过使奖励模型更具可解释性 [Molnar,2020] 和可控性 [Wong 等,2021] 来增强它们。以上述行长为例,假设 RM 的输出是可分解的,这意味着它由于两个因素而给响应分配高分:40% 用于有用性,60% 用于长度。在这种情况下,我们可以看到 RM 可能受到行长的影响。此外,如果 RM 是可控的,我们可以调整其决策过程,使其 100% 基于有用性得分。这将不考虑响应的长度,从而减少行长。增强 RM 的可解释性还允许人类验证 RM 在作为人类偏好的代理时是否具有与人类相似的内部决策过程。我们相信这种人机交互过程可以确保 RM 与人类价值观和偏好对齐,从而使 RM 对齐的 LLM 更值得信赖和健壮。

在高层次上,我们提出了一个两阶段方法,首先训练一个多目标 RM,然后学习一个门控层以专家混合的方式将奖励目标标量化。然后,我们通过使用 Llama-3 8B [Meta,2024] 训练这样一个 RM 并在 RewardBench(一个用于评估 RM 的基准)上实现最先进的性能来实验验证其有效性。

image/png

ArmoRM 实现: 我们使用 Llama-3 8B 架构 [Meta,2024],并使用 Dong 等 [2024] 训练的 Llama-3 8B Bradley-Terry RM 的参数初始化模型骨干。我们在骨干上附加一个线性层,并使用回归损失对其进行训练,同时保持骨干冻结。训练涉及来自 8 个数据集的 19 个目标(包括有用性、准确性、行长等)。

MoE 实现: 门控层是一个包含 3 个隐藏层和 1024 个隐藏单元的 ReLU MLP。对于相关性指数,我们应用 Spearman 相关性 [Spearman,1904],并使用 UltraFeedback [Cui 等,2023] 作为参考数据分布。比例变量初始化为 100,并且门控层在 LLM 骨干固定时进行训练。训练在 10 个配对偏好数据集上进行。

ArmoRM 训练(多目标奖励建模阶段)仅涉及训练最终线性层(即线性探测),因此我们将从骨干中提取的特征本地保存,然后使用 Scikit-learn 的线性回归求解器在 CPU 上进行线性探测。对于 MoE 阶段,我们也本地保存特征,然后在一个 NVIDIA A6000 GPU 上训练门控层。

门控层使用 AdamW 优化器 [Loshchilov 和 Hutter,2019] 进行训练,学习率为 0.001,在 10,000 步中,批处理大小为 1024。我们还应用了余弦衰减学习率调度器。

RewardBench [Lambert 等,2024] 是第一个为评估语言模型的奖励模型而构建的基准。它包含一组多样化的任务,旨在评估奖励模型在对齐 LLM 方面的性能,包括四个主要类别(聊天、困难聊天、安全、推理)和一个预处理类别。每个类别包含多个带有配对偏好数据的数据集,其中每对包括一个选定的和被拒绝的文本响应。整体得分计算为五个类别的加权平均值,其中四个主要类别的权重为 1.0,预处理类别的权重为 0.5。

表 1 比较了我们的方法 (ArmoRM + MoE) 与其他奖励模型的性能。从这些结果中可以得出几个关键观察结果:

  • 我们的模型显著优于 Llama-3 8B Bradley-Terry RM,后者为我们的模型提供了 LLM 骨干。这证明了我们的 ArmoRM 设计和 MoE 门控机制在提高奖励模型性能方面的有效性。

  • 我们的模型也优于使用 GPT-4 作为评判的 LLM-as-a-judge 方法 [Zheng 等,2023],这表明我们的模型可以在许多注释任务中作为 GPT-4 的廉价替代品。

  • 我们的 8B 参数模型与拥有 340B 参数的巨大奖励模型 Nemotron-4 340B Wang 等 [2024b] 达到了几乎相同的性能。这突出了我们奖励建模方法的强大潜力和实力。

在这项研究中,我们解决了在将 LLM 与人类偏好对齐的背景下,RLHF 奖励模型中可解释性的重要问题。我们提出了一种新颖的两阶段方法,包括 ArmoRM 和带有门控网络的 MoE 策略。我们的 ArmoRM,使用 Llama-3 8B 进行训练,在 RewardBench 上取得了最先进的性能,证明了我们奖励建模方法的有效性。

社区

注册登录 以评论