深度 RL 课程文档
RL 中的语言模型
并获得增强的文档体验
开始使用
RL 中的语言模型
LM 为智能体编码有用的知识
语言模型 (LM) 在处理文本时可以展现出令人印象深刻的能力,例如问答,甚至是逐步推理。此外,它们在海量文本语料库上的训练使它们能够编码各种类型的知识,包括关于我们世界物理规则的抽象知识(例如,用物体可以做什么,旋转物体时会发生什么......)。
最近研究的一个自然问题是,当尝试解决日常任务时,这些知识是否可以使机器人等智能体受益。虽然这些工作显示出有趣的结果,但所提出的智能体缺乏任何学习方法。这种限制阻止了这些智能体适应环境(例如,纠正错误的知识)或学习新技能。

LM 和 RL
因此,LM 可以带来关于世界的知识,而 RL 可以通过与环境互动来调整和纠正这些知识,两者之间存在潜在的协同作用。从 RL 的角度来看,这尤其有趣,因为 RL 领域主要依赖于白板设置,在这种设置中,一切都由智能体从头开始学习,从而导致
1) 样本效率低下
2) 从人类角度来看的意外行为
作为首次尝试,论文 “使用在线强化学习扎根大型语言模型” 解决了使用 PPO 将 LM 适配或对齐到文本环境的问题。他们表明,LM 中编码的知识可以使 LM 快速适应环境(为样本高效的 RL 智能体开辟道路),而且这种知识还允许 LM 在对齐后更好地泛化到新任务。
在 “使用大型语言模型指导强化学习中的预训练” 中研究的另一个方向是保持 LM 冻结,但利用其知识来引导 RL 智能体的探索。这种方法允许 RL 智能体在训练期间无需人工参与的情况下,朝着对人类有意义且可能非常有用的行为方向发展。

一些局限性使得这些工作仍然非常初步,例如需要将智能体的观察结果转换为文本,然后再将其提供给 LM,以及与非常大的 LM 交互的计算成本。
延伸阅读
欲了解更多信息,我们建议您查看以下资源
作者
本节由 Clément Romac 撰写
< > 在 GitHub 上更新