深度强化学习课程文档
RL 中的语言模型
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
RL 中的语言模型
语言模型为代理编码有用知识
语言模型(LMs)在文本操作方面表现出令人印象深刻的能力,例如问答甚至分步推理。此外,它们在大量文本语料库上的训练使它们能够编码各种类型的知识,包括关于我们世界物理规则的抽象知识(例如,一个物体可以做什么,当一个物体旋转时会发生什么……)。
最近研究的一个自然问题是,当机器人等代理尝试解决日常任务时,这些知识是否能惠及它们。虽然这些工作显示出有趣的结果,但所提出的代理缺乏任何学习方法。这种限制阻止了这些代理适应环境(例如,修正错误知识)或学习新技能。

语言模型和强化学习
因此,语言模型(可以带来关于世界的知识)和强化学习(可以通过与环境互动来调整和修正这些知识)之间存在潜在的协同作用。从强化学习的角度来看,这尤其有趣,因为强化学习领域主要依赖于从零开始(Tabula-rasa)的设置,即代理从头开始学习一切,这导致:
1) 样本效率低下
2) 人类眼中意想不到的行为
作为首次尝试,论文“使用在线强化学习接地大型语言模型”解决了使用 PPO 将语言模型适应或对齐到文本环境的问题。他们表明,语言模型中编码的知识能够快速适应环境(为样本高效的强化学习代理开辟了道路),而且这种知识还能让语言模型在对齐后更好地泛化到新任务。
在“使用大型语言模型指导强化学习中的预训练”中研究的另一个方向是保持语言模型冻结,但利用其知识来指导强化学习代理的探索。这种方法使得强化学习代理可以在训练期间无需人工干预的情况下,被引导到对人类有意义且可能有用的行为。

这些工作仍然非常初步,存在一些局限性,例如在将代理的观察结果提供给语言模型之前需要将其转换为文本,以及与超大型语言模型交互的计算成本。
延伸阅读
欲了解更多信息,我们建议您查阅以下资源
作者
本节由 Clément Romac 撰写
< > 在 GitHub 上更新