深度强化学习课程文档

RLHF

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

RLHF

基于人类反馈的强化学习 (RLHF) 是一种将人类数据标签整合到基于强化学习的优化过程中的方法。它的动机在于对人类偏好进行建模的挑战

对于许多问题,即使你可以尝试为某个理想写出方程式,人类的偏好也各不相同。

根据测量数据更新模型是尝试缓解这些固有人类机器学习问题的一种途径

开始学习 RLHF

要开始学习 RLHF

  1. 阅读这篇介绍文章:《图解基于人类反馈的强化学习 (RLHF)》。

  2. 观看我们几周前录制的直播,Nathan 在其中介绍了基于人类反馈的强化学习 (RLHF) 的基础知识,以及这项技术如何用于实现 ChatGPT 等最先进的机器学习工具。大部分内容是对相互关联的机器学习模型的概述。它涵盖了自然语言处理和强化学习的基础知识,以及 RLHF 如何用于大型语言模型。最后,我们讨论了 RLHF 中的开放问题。

  1. 阅读关于此主题的其他博客,例如《封闭 API 与开源之争仍在继续:RLHF、ChatGPT、数据护城河》。如果您有更多喜欢的,请告诉我们!

延伸阅读

注意:这部分内容复制自上面的《图解 RLHF》博客文章。以下是迄今为止关于 RLHF 最普遍的论文列表。该领域随着深度强化学习(约2017年)的兴起而普及,并已发展成为许多大型科技公司对大型语言模型应用进行更广泛研究的领域。以下是一些早于专注于语言模型的 RLHF 论文:

以下是关于 RLHF 在语言模型中表现不断增长的论文集合的概览:

作者

本节由Nathan Lambert撰写。

< > 在 GitHub 上更新