通过多目标奖励模型和专家混合解释偏好

社区文章发布于 2024 年 9 月 29 日

人类反馈强化学习 (RLHF) 已成为将大型语言模型 (LLM) 与人类偏好对齐的主要方法。RLHF 过程通常从使用人类偏好数据训练奖励模型 (RM) 开始。传统的 RM 在对同一用户查询的配对响应上进行训练，相对排名表示人类更喜欢哪个响应。训练后的 RM 充当人类偏好的代理。然而，由于 RM 的黑箱性质，它们的输出缺乏可解释性，因为人类无法直观地理解 RM 为什么认为某个响应是好是坏。

由于 RM 作为人类偏好的代理，它们需要具有可解释性，以确保其内部决策过程与人类偏好保持一致，并防止在对齐 LLM 时出现奖励利用。为了构建具有可解释偏好的 RM，我们提出了一个两阶段方法：

i) 使用多维度绝对评级数据训练绝对评级多目标奖励模型 (ArmoRM)，每个维度对应一个可解释目标（例如，真实性、行长、安全性）；

ii) 使用专家混合 (MoE) 策略，其中一个门控网络根据上下文自动选择最相关的奖励目标。我们成功地训练了一个基于 Llama-3 8B 的 ArmoRM 和一个包含 ArmoRM 上浅层 MLP 的门控网络。我们训练的模型 ArmoRM-Llama3-8B 在 RewardBench（一个用于评估语言模型 RM 的基准）上取得了最先进的性能。值得注意的是，我们模型的性能优于使用 GPT-4 作为评判的 LLM-as-a-judge 方法，并且接近于大得多的 Nemotron-4 340B 奖励模型的性能。

在本研究中，我们探讨了奖励模型 (RM) 在人类反馈强化学习 (RLHF) 框架中的作用。RM 在对齐大型语言模型 (LLM) 方面发挥着关键作用，因为它们提供了一种可扩展的方式，将人类偏好整合到模型训练过程中，指导其策略的优化。最流行的 RLHF 框架是基于深度强化学习 (DRL) 的框架，如重要研究 [Christiano 等，2017；Ouyang 等，2022；Bai 等，2022] 中开发的那样。该框架分三个阶段运行：

收集偏好数据；
基于 Bradley-Terry 模型 [Bradley 和 Terry，1952] 对奖励进行建模；
使用近端策略优化 (PPO) [Schulman 等，2017] 和在第二阶段构建的奖励模型来优化策略。该框架在 ChatGPT [Ouyang 等，2022] 和 Claude [Bai 等，2022] 的训练中取得了巨大成功。这些思想也扩展到其他方法，例如拒绝采样微调 [Dong 等，2023；Gulcehre 等，2023] 和迭代直接偏好学习 [Xiong 等，2023；Guo 等，2024；Xie 等，2024]。在所有这些 RLHF 框架中，奖励模型的能力至关重要，因为它直接影响对齐 LLM 的质量。

最流行的奖励建模方法基于 Bradley-Terry (BT) 模型 [Bradley 和 Terry，1952] 的最大似然估计 (MLE)。尽管广泛使用，但 BT 模型在捕捉复杂人类偏好方面的能力相当有限 [Munos 等，2023；Swamy 等，2024；Ye 等，2024]。除了能力问题，流行的 RM（如 BT 模型）通常是黑箱模型，它们提供分数或偏好而不提供可解释的解释，使其容易受到广泛观察到的奖励利用现象 [Skalse 等，2022；Singhal 等，2023；Chen 等，2024]，其中对齐的 LLM 生成的响应具有高奖励（由 RM 排名）但不符合实际人类偏好 [Gao 等，2023；Lin 等，2023；Coste 等，2023]。一个值得注意的例子是行长，其中对齐的 LLM 生成的响应比必要更长，因为 RM 优先考虑长度，而不考虑质量 [Singhal 等，2023；Wang 等，2024a；Chen 等，2024]。

在这项研究中，我们旨在通过使奖励模型更具可解释性 [Molnar，2020] 和可控性 [Wong 等，2021] 来增强它们。以上述行长为例，假设 RM 的输出是可分解的，这意味着它由于两个因素而给响应分配高分：40% 用于有用性，60% 用于长度。在这种情况下，我们可以看到 RM 可能受到行长的影响。此外，如果 RM 是可控的，我们可以调整其决策过程，使其 100% 基于有用性得分。这将不考虑响应的长度，从而减少行长。增强 RM 的可解释性还允许人类验证 RM 在作为人类偏好的代理时是否具有与人类相似的内部决策过程。我们相信这种人机交互过程可以确保 RM 与人类价值观和偏好对齐，从而使 RM 对齐的 LLM 更值得信赖和健壮。

在高层次上，我们提出了一个两阶段方法，首先训练一个多目标 RM，然后学习一个门控层以专家混合的方式将奖励目标标量化。然后，我们通过使用 Llama-3 8B [Meta，2024] 训练这样一个 RM 并在 RewardBench（一个用于评估 RM 的基准）上实现最先进的性能来实验验证其有效性。

ArmoRM 实现： 我们使用 Llama-3 8B 架构 [Meta，2024]，并使用 Dong 等 [2024] 训练的 Llama-3 8B Bradley-Terry RM 的参数初始化模型骨干。我们在骨干上附加一个线性层，并使用回归损失对其进行训练，同时保持骨干冻结。训练涉及来自 8 个数据集的 19 个目标（包括有用性、准确性、行长等）。

MoE 实现： 门控层是一个包含 3 个隐藏层和 1024 个隐藏单元的 ReLU MLP。对于相关性指数，我们应用 Spearman 相关性 [Spearman，1904]，并使用 UltraFeedback [Cui 等，2023] 作为参考数据分布。比例变量初始化为 100，并且门控层在 LLM 骨干固定时进行训练。训练在 10 个配对偏好数据集上进行。

ArmoRM 训练（多目标奖励建模阶段）仅涉及训练最终线性层（即线性探测），因此我们将从骨干中提取的特征本地保存，然后使用 Scikit-learn 的线性回归求解器在 CPU 上进行线性探测。对于 MoE 阶段，我们也本地保存特征，然后在一个 NVIDIA A6000 GPU 上训练门控层。

门控层使用 AdamW 优化器 [Loshchilov 和 Hutter，2019] 进行训练，学习率为 0.001，在 10,000 步中，批处理大小为 1024。我们还应用了余弦衰减学习率调度器。

RewardBench [Lambert 等，2024] 是第一个为评估语言模型的奖励模型而构建的基准。它包含一组多样化的任务，旨在评估奖励模型在对齐 LLM 方面的性能，包括四个主要类别（聊天、困难聊天、安全、推理）和一个预处理类别。每个类别包含多个带有配对偏好数据的数据集，其中每对包括一个选定的和被拒绝的文本响应。整体得分计算为五个类别的加权平均值，其中四个主要类别的权重为 1.0，预处理类别的权重为 0.5。

表 1 比较了我们的方法 (ArmoRM + MoE) 与其他奖励模型的性能。从这些结果中可以得出几个关键观察结果：

我们的模型显著优于 Llama-3 8B Bradley-Terry RM，后者为我们的模型提供了 LLM 骨干。这证明了我们的 ArmoRM 设计和 MoE 门控机制在提高奖励模型性能方面的有效性。
我们的模型也优于使用 GPT-4 作为评判的 LLM-as-a-judge 方法 [Zheng 等，2023]，这表明我们的模型可以在许多注释任务中作为 GPT-4 的廉价替代品。
我们的 8B 参数模型与拥有 340B 参数的巨大奖励模型 Nemotron-4 340B Wang 等 [2024b] 达到了几乎相同的性能。这突出了我们奖励建模方法的强大潜力和实力。

在这项研究中，我们解决了在将 LLM 与人类偏好对齐的背景下，RLHF 奖励模型中可解释性的重要问题。我们提出了一种新颖的两阶段方法，包括 ArmoRM 和带有门控网络的 MoE 策略。我们的 ArmoRM，使用 Llama-3 8B 进行训练，在 RewardBench 上取得了最先进的性能，证明了我们奖励建模方法的有效性。

社区

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论