深度强化学习课程文档

RLHF

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

RLHF

人类反馈强化学习 (RLHF) 是一种将人类数据标签整合到基于强化学习的优化过程中的方法。它的动机是对人类偏好进行建模的挑战

对于许多问题,即使你可以尝试写出一个理想的方程,人类在偏好上也会有所不同。

基于测量数据更新模型是尝试减轻这些固有的人工智能机器学习问题的途径

开始学习 RLHF

开始学习 RLHF

  1. 阅读这篇介绍:Illustrating Reinforcement Learning from Human Feedback (RLHF)

  2. 观看我们几周前做的直播录像,Nathan 在其中介绍了人类反馈强化学习 (RLHF) 的基础知识,以及这项技术如何被用于支持像 ChatGPT 这样的最先进的机器学习工具。大部分谈话是对相互关联的机器学习模型的概述。它涵盖了自然语言处理和强化学习的基础知识,以及 RLHF 如何用于大型语言模型。然后,我们以 RLHF 中的开放性问题作为总结。

  1. 阅读其他关于这个主题的博客,例如 Closed-API vs Open-source continues: RLHF, ChatGPT, data moats。如果您有更多喜欢的,请告诉我们!

其他阅读材料

注意,这是从上面的 Illustrating RLHF 博客文章中复制的。以下是迄今为止关于 RLHF 最流行的论文列表。该领域最近随着 DeepRL 的出现(约 2017 年)而普及,并已发展成为许多大型科技公司对 LLM 应用的更广泛研究。以下是一些早于 LM 关注的关于 RLHF 的论文

这里是不断增长的论文快照,这些论文展示了 RLHF 在 LM 上的性能

作者

本节由 Nathan Lambert 撰写

< > 在 GitHub 上更新