RLHF与偏好优化技术能否帮助LLM超越GPT4级别模型?

社区文章 发布于 2024年11月24日

LLaMA-3, 监督微调 (SFT), RLHF, 偏好对齐, DPO, ORPO, 指令遵循模型

引言

在最近的研究中,许多不同的微调(FT)技术声称在特定任务中优于最新的先进模型,如GPT4。我成功地使用其中一些技术显著提高了LLM在银行特定和系统性风险事件新闻文章分类方面的性能,同时纳入了做出该决策所需的推理能力。

这项工作是在银行风险新闻文章的背景下进行的,其中基于BERT的较小型语言模型缺乏处理复杂任务所需的推理能力。通过这项全面的评估,我旨在深入了解不同FT方法的有效性,包括带有人类反馈的强化学习(RLHF)方法及其提高文本分类和生成任务的NLP性能的潜力。

这篇博文不仅展示了如何使用有限的硬件资源进行这些实验,还将其性能与GPT4-32k(0613)进行了比较——剧透:我使用FT模型获得了更好的性能:)

前期工作

我之前的工作迭代利用了提示工程来增强基于BERT的模型,该模型最初的F1分数约为55-60%。

这种性能受到两个主要问题的阻碍:

  • 代表性不足:数据集仅包含一年的数据。
  • 数据集不平衡:代表系统性风险和银行特定风险的类别代表性不足。

为了解决这些问题,我们使用了GPT-3.5-turbo和提示工程来扩充少数类别的数据集,然后重新训练基于BERT的模型。虽然提示工程在许多情况下都有效,但模型的性能对提示的微小修改高度敏感。此外,少量样本提示通常会产生次优结果。

微调技术

起点

初始性能指标如下所示。与基于BERT的模型进行比较的LLM仅通过提示工程技术进行了微调。

image/png

SFT与偏好优化

下图展示了可以在基础模型甚至微调模型之上应用的各种微调技术,以提高模型性能。

image/png

通常,完全微调会在训练期间更新基础模型的所有权重,但这对于大型模型来说是不可行的。因此,我们将使用QLoRa,这是一种参数高效微调(PEFT)技术,它会冻结基础模型,并且只训练少量额外的参数,采用LoRa量化版本(例如,4位模型),进一步减少内存需求并保持效率。

近端策略优化(PPO)是一种与强化学习算法对齐的方法,旨在最大化奖励。它使用三个模型进行LLM微调:(1)活跃模型(正在微调的主模型),(2)价值模型(用于估计不同行动的价值以指导学习),以及(3)参考模型(提供基线以防止更新过于剧烈)。PPO试图平衡改进策略和将变化控制在合理范围内(更多信息请阅读PPO论文)。

然而,考虑到运行此方法(加载三个模型)的成本,我将重点放在RLHF技术上,该技术不使用传统的[指令、输入、输出]集,而是使用偏好和拒绝的输出([指令、输入、期望输出、拒绝输出])。特别是,直接偏好优化(DPO)和赔率比偏好优化(ORPO)将使用新的数据集格式,使LLM输出与专家偏好对齐。

DPO引入了一个新目标,其中原始模型通过使用包含人类偏好的数据集直接学习优化偏好。它使用两个模型:活跃模型(正在微调的主模型)和参考模型。该公式使用期望响应的对数概率和拒绝响应的对数概率,旨在最大化差异。这种方法是可微分的,允许反向传播并朝此目标学习。

最后,本文探讨的另一种方法是ORPO技术。它通过将对不需要的生成风格的惩罚纳入损失函数来改变目标。这种惩罚量化了选择和拒绝答案之间的偏好差异,这有助于提高性能并优化答案的特定风格。欲了解详细信息,请参阅 赔率比偏好优化论文

方法论

您可以在下方看到用于收集实验所需训练数据的方法论流程图。

image/png

下表显示了训练数据集的一个示例(为便于阅读而格式化)。

角色 内容
系统 您是评估欧洲银行业特定银行和系统性风险的专家。
用户 我将发送一个请求给您。请以以下重要目标银行列表作为上下文进行回答:TARGET_BANKS = ['BNP PARIBAS', 'CREDIT SUISSE', 'UBS']
助手 我准备好了!请发送您的请求。我将使用TARGET_BANKS = ['法国巴黎银行', '瑞士信贷', '瑞银集团']列表作为上下文来回答您的问题。
用户 请为以下新闻片段分配一个标签:银行特定风险(受影响银行数量有限)、系统性风险(整个欧洲银行业可能直接或间接受到影响)或不适用。
INPUT={
新闻标题:“瑞银首席执行官埃尔莫蒂指出瑞信客户迁移面临挑战”;
片段:“瑞银于2023年3月收购了因一系列财务挫折而倒闭的瑞士信贷,最近开始将其客户转移到自己的系统。埃尔莫蒂表示,客户迁移是整合过程中最困难的阶段,瑞银将很快将新加坡的账户转移过来。上个月,瑞银表示已在卢森堡和香港完成了这些转移。”
}
助手 新闻标题:“瑞银首席执行官埃尔莫蒂指出瑞信客户迁移面临挑战”,
片段:“瑞银于2023年3月收购了因一系列财务挫折而倒闭的瑞士信贷,最近开始将其客户转移到自己的系统。埃尔莫蒂表示,客户迁移是整合过程中最困难的阶段,瑞银将很快将新加坡的账户转移过来。上个月,瑞银表示已在卢森堡和香港完成了这些转移。”
标签:“银行特定风险(受影响银行数量有限)”,
原因:“新闻片段中提到的客户迁移挑战是瑞信整合到瑞银的特有问题,这是与收购单一银行相关的一次性事件。虽然瑞银和瑞信都是受监管的机构,但该挑战似乎并未对整个欧洲银行业产生更广泛的影响。瑞银已在卢森堡和香港完成客户转移,并且仍在努力转移新加坡的账户,这表明这是一个有限的问题,银行正在解决。因此,我会将此新闻片段标记为银行特定风险(受影响银行数量有限)。”

数据集备注

  • 在提示指令中,(1)包含风险类型的定义,(2)通过与助手进行额外交互以提供相关银行的上下文,以及(3)要求提供推理字段,这些都已证明能在多项实验中取得更好的结果。
  • 训练数据集(15k训练样本,2.5k验证样本,2.5k测试样本)经过专家审查,仅关注分配的标签。推理字段是使用GPT-4生成的,以避免手动创建所需的大量时间和精力。
  • 为了训练DPO和ORPO算法,数据集通过拒绝样本的推理进行了扩充,这些推理来源于与专家验证标签不符的LLM预测。

训练技巧
HuggingFace团队提供了TRL库,它简化了DPO和ORPO训练技术的实现。要了解更多关于如何使用DPO等偏好优化方法运行SFT的信息,请参阅Philipp Schmid的这篇文章

评估结果

在本节中,我将通过评估之前描述的技术,重点识别特定分类问题的最佳FT方法。我将研究这些方法是否能在分类任务中超越基于BERT模型的性能。此外,我将探讨这些技术利用微调过程中获得的额外知识,在摘要和问答(Q&A)任务中进行推理的能力。

image/png

此比较突出显示,SFT与DPO结合是需要高精度、召回率和F1分数任务中最平衡且有效的方法。

分析示例

image/png

结果显示,LLaMA模型不仅能够分配正确的分类标签,还能有效捕捉其决策背后的细微差别和推理,而GPT系列模型则未能理解并应用所需的推理。

FT实验期间需要监督的重要指标

为了能够了解模型是否确实在学习和改进,需要关注一些相关指标。这种监控可以使用TensorBoard(如下所示)或Weights & Biases(wandb)仪表板等工具进行。

image/png

该图像显示了四个图表,比较了三种技术(ORPO、带有QLoRA的SFT和DPO)在600个训练步骤中的学习率、奖励/边距和准确性等指标方面的性能。以下是详细解释:

  1. 左上图:学习率。此图比较了三种技术的学习率:

    • ORPO (5e-6):以较低的学习率开始,并逐渐衰减。
    • SFT与QLoRA (2e-5):以中等较高的学习率开始,并稳步衰减。
    • DPO (5e-5):以最高的学习率开始,并比其他方法衰减更快。
    • 学习率的变化表明这些方法采用了不同的优化策略。
  2. 中上图:DPO奖励/边距 — 此图跟踪DPO方法的奖励/边距。该指标反映了选中输出和拒绝输出之间的奖励差异。

    • 上升趋势表明模型正在有效地学习为选定的输出分配比拒绝的输出更高的奖励,从而提高其鉴别能力。
  3. 右上图:ORPO奖励/准确率——跟踪ORPO的整体准确率,该准确率峰值约为0.8。

  4. 右下图:ORPO奖励/边距——此图显示了ORPO所选输出和拒绝输出之间的奖励边距。

    • 虽然准确率看起来很高(约为0.8),但选择和拒绝奖励之间的差距仍然非常小,这表明尽管在准确率方面表现强劲,但在区分这两个类别方面仍存在潜在挑战。

总体比较:DPO在学习为选定的输出分配更高奖励方面表现更优。尽管ORPO取得了高准确率,但在区分方面却表现不佳,这可能表明它未能完全区分选定和拒绝的输出。这些观察结果与图表中呈现的评估结果一致。

注意:这些仪表板对于了解训练过程中发生的情况非常有用。例如,在DPO的初始迭代中,我意识到我使用的学习率非常低,这对我模型的有效学习能力产生了负面影响。

结论

关于数据集大小的最终考量:在我的初步实验中,我使用了小得多的数据集(<5k个样本)。然而,这不足以在模型的推理能力方面带来任何改进。虽然模型可以准确预测类别,但它同时失去了在基于指令的聊天场景中良好表现的能力,这突出表明了使用足够大的数据集以实现平衡性能的重要性。

目前的结果(使用20k样本数据集)表明,结合DPO的SFT能有效提高模型在手头任务中的推理能力,这表明偏好优化技术可以显著增强LLM在特定问题上的性能。

未来的工作将侧重于更广泛的评估,以进一步探索FT LLM在其他复杂生成场景中的效用。

尽管如此,这些性能结果本身不应成为决定最佳方法的最终决定因素。部署成本和解决方案的灵活性等关键方面必须仔细分析,特别是如果模型旨在用于生产设置。进一步探索将RLHF与替代偏好优化策略或混合方法相结合,可以为未来的研究和应用提供有希望的途径。

社区

注册登录 以评论