深度强化学习课程文档
RLHF
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
RLHF
基于人类反馈的强化学习 (RLHF) 是一种将人类数据标签整合到基于强化学习的优化过程中的方法。它的动机在于对人类偏好进行建模的挑战。
对于许多问题,即使你可以尝试为某个理想写出方程式,人类的偏好也各不相同。
根据测量数据更新模型是尝试缓解这些固有人类机器学习问题的一种途径。
开始学习 RLHF
要开始学习 RLHF
阅读这篇介绍文章:《图解基于人类反馈的强化学习 (RLHF)》。
观看我们几周前录制的直播,Nathan 在其中介绍了基于人类反馈的强化学习 (RLHF) 的基础知识,以及这项技术如何用于实现 ChatGPT 等最先进的机器学习工具。大部分内容是对相互关联的机器学习模型的概述。它涵盖了自然语言处理和强化学习的基础知识,以及 RLHF 如何用于大型语言模型。最后,我们讨论了 RLHF 中的开放问题。
- 阅读关于此主题的其他博客,例如《封闭 API 与开源之争仍在继续:RLHF、ChatGPT、数据护城河》。如果您有更多喜欢的,请告诉我们!
延伸阅读
注意:这部分内容复制自上面的《图解 RLHF》博客文章。以下是迄今为止关于 RLHF 最普遍的论文列表。该领域随着深度强化学习(约2017年)的兴起而普及,并已发展成为许多大型科技公司对大型语言模型应用进行更广泛研究的领域。以下是一些早于专注于语言模型的 RLHF 论文:
- TAMER: 通过评估性强化手动训练智能体 (Knox and Stone 2008):提出了一种学习型智能体,人类对其采取的行动进行迭代评分,以学习奖励模型。
- 基于策略相关人类反馈的交互式学习 (MacGlashan et al. 2017):提出了一种 Actor-Critic 算法 COACH,其中人类反馈(包括积极和消极)用于调整优势函数。
- 基于人类偏好的深度强化学习 (Christiano et al. 2017):RLHF 应用于 Atari 轨迹之间的偏好。
- Deep TAMER: 高维状态空间中的交互式智能体塑造 (Warnell et al. 2018):扩展了 TAMER 框架,使用深度神经网络来建模奖励预测。
以下是关于 RLHF 在语言模型中表现不断增长的论文集合的概览:
- 基于人类偏好微调语言模型 (Zieglar et al. 2019):一篇早期研究奖励学习对四个特定任务影响的论文。
- 基于人类反馈的学习摘要 (Stiennon et al., 2020):RLHF 应用于文本摘要任务。另请参阅 基于人类反馈递归总结书籍 (OpenAI Alignment Team 2021),后续工作是总结书籍。
- WebGPT: 浏览器辅助的带人类反馈的问答 (OpenAI, 2021):使用 RLHF 训练智能体来浏览网页。
- InstructGPT: 通过人类反馈训练语言模型以遵循指令 (OpenAI Alignment Team 2022):RLHF 应用于通用语言模型 [InstructGPT 博客文章]。
- GopherCite: 教语言模型用经过验证的引用支持答案 (Menick et al. 2022):用 RLHF 训练语言模型,使其返回带有特定引用的答案。
- Sparrow: 通过有针对性的人类判断改进对话代理的对齐 (Glaese et al. 2022):使用 RLHF 微调对话代理。
- ChatGPT: 优化用于对话的语言模型 (OpenAI 2022):使用 RLHF 训练语言模型,使其适合作为通用聊天机器人使用。
- 奖励模型过度优化的缩放定律 (Gao et al. 2022):研究 RLHF 中学习到的偏好模型的缩放特性。
- 通过基于人类反馈的强化学习训练一个有帮助且无害的助手 (Anthropic, 2022):详细记录了使用 RLHF 训练语言模型助手的过程。
- 对语言模型进行红队演练以减少危害:方法、扩展行为和经验教训 (Ganguli et al. 2022):详细记录了“发现、衡量并尝试减少 [语言模型] 潜在有害输出”的努力。
- 使用强化学习在开放式对话中进行动态规划 (Cohen et al. 2022):使用强化学习增强开放式对话代理的对话技能。
- 强化学习(不)适用于自然语言处理吗?:自然语言策略优化的基准、基线和构建块 (Ramamurthy and Ammanabrolu et al. 2022):讨论了 RLHF 中开源工具的设计空间,并提出了一种新的算法 NLPO(自然语言策略优化)作为 PPO 的替代方案。
作者
本节由Nathan Lambert撰写。
< > 在 GitHub 上更新