深度强化学习课程文档
RLHF
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
RLHF
人类反馈强化学习 (RLHF) 是一种将人类数据标签整合到基于强化学习的优化过程中的方法。它的动机是对人类偏好进行建模的挑战。
对于许多问题,即使你可以尝试写出一个理想的方程,人类在偏好上也会有所不同。
基于测量数据更新模型是尝试减轻这些固有的人工智能机器学习问题的途径。
开始学习 RLHF
开始学习 RLHF
阅读这篇介绍:Illustrating Reinforcement Learning from Human Feedback (RLHF)。
观看我们几周前做的直播录像,Nathan 在其中介绍了人类反馈强化学习 (RLHF) 的基础知识,以及这项技术如何被用于支持像 ChatGPT 这样的最先进的机器学习工具。大部分谈话是对相互关联的机器学习模型的概述。它涵盖了自然语言处理和强化学习的基础知识,以及 RLHF 如何用于大型语言模型。然后,我们以 RLHF 中的开放性问题作为总结。
- 阅读其他关于这个主题的博客,例如 Closed-API vs Open-source continues: RLHF, ChatGPT, data moats。如果您有更多喜欢的,请告诉我们!
其他阅读材料
注意,这是从上面的 Illustrating RLHF 博客文章中复制的。以下是迄今为止关于 RLHF 最流行的论文列表。该领域最近随着 DeepRL 的出现(约 2017 年)而普及,并已发展成为许多大型科技公司对 LLM 应用的更广泛研究。以下是一些早于 LM 关注的关于 RLHF 的论文
- TAMER: Training an Agent Manually via Evaluative Reinforcement (Knox and Stone 2008):提出了一个学习型代理,其中人类迭代地对采取的行动提供评分,以学习奖励模型。
- Interactive Learning from Policy-Dependent Human Feedback (MacGlashan et al. 2017):提出了一个 actor-critic 算法 COACH,其中人类反馈(包括正面和负面)用于调整优势函数。
- Deep Reinforcement Learning from Human Preferences (Christiano et al. 2017):RLHF 应用于 Atari 轨迹之间的偏好。
- Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces (Warnell et al. 2018):扩展了 TAMER 框架,其中深度神经网络用于模拟奖励预测。
这里是不断增长的论文快照,这些论文展示了 RLHF 在 LM 上的性能
- Fine-Tuning Language Models from Human Preferences (Zieglar et al. 2019):一篇早期论文,研究了奖励学习对四项特定任务的影响。
- Learning to summarize with human feedback (Stiennon et al., 2020):RLHF 应用于文本摘要任务。此外,Recursively Summarizing Books with Human Feedback (OpenAI Alignment Team 2021),后续工作是书籍摘要。
- WebGPT: Browser-assisted question-answering with human feedback (OpenAI, 2021):使用 RLHF 训练代理导航网络。
- InstructGPT:Training language models to follow instructions with human feedback (OpenAI Alignment Team 2022):RLHF 应用于通用语言模型 [Blog post on InstructGPT]。
- GopherCite:Teaching language models to support answers with verified quotes (Menick et al. 2022):使用 RLHF 训练 LM 返回带有特定引用的答案。
- Sparrow:Improving alignment of dialogue agents via targeted human judgements (Glaese et al. 2022):使用 RLHF 微调对话代理
- ChatGPT: Optimizing Language Models for Dialogue (OpenAI 2022):使用 RLHF 训练 LM,使其适合用作通用聊天机器人。
- Scaling Laws for Reward Model Overoptimization (Gao et al. 2022):研究 RLHF 中学习的偏好模型的缩放特性。
- Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic, 2022):详细记录了使用 RLHF 训练 LM 助手的过程。
- Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (Ganguli et al. 2022):详细记录了为“发现、衡量和尝试减少 [语言模型] 潜在有害输出”所做的努力。
- Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning (Cohen at al. 2022):使用 RL 增强开放式对话代理的对话技巧。
- Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization (Ramamurthy and Ammanabrolu et al. 2022):讨论了 RLHF 中开源工具的设计空间,并提出了新的算法 NLPO(自然语言策略优化)作为 PPO 的替代方案。
作者
本节由 Nathan Lambert 撰写
< > 在 GitHub 上更新