深度强化学习课程文档
强化学习(RL)的(自动)课程学习
加入 Hugging Face 社区
并获得增强的文档体验
开始使用
强化学习(RL)的(自动)课程学习
虽然本课程中看到的大多数强化学习方法在实践中表现良好,但在某些情况下,单独使用它们会失败。例如,当出现以下情况时:
- 学习任务很困难,需要逐步获取技能(例如,当想要让双足智能体学习穿越困难障碍时,它必须首先学习站立,然后行走,然后可能跳跃……)
- 环境中存在变异(影响难度),并且希望其智能体对这些变异具有鲁棒性


在这种情况下,似乎需要向我们的强化学习智能体提供不同的任务,并对其进行组织,使其逐步获取技能。这种方法被称为课程学习,通常意味着手工设计的课程(或以特定顺序组织的一组任务)。实际上,可以例如控制环境的生成、初始状态,或使用自博弈并控制提供给强化学习智能体的对手水平。
由于设计这样的课程并非总是微不足道的,自动课程学习(ACL)领域提出设计学习创建这种任务组织以最大化强化学习智能体性能的方法。Portelas 等人提出将 ACL 定义为
… 一系列机制,通过学习调整学习情况的选择以适应强化学习智能体的能力,从而自动调整训练数据的分布。
例如,OpenAI 使用领域随机化(他们在环境中应用随机变化)来使机器人手解决魔方。

最后,您可以通过控制环境变化甚至绘制地形来体验在 TeachMyAgent 基准测试中训练的智能体的鲁棒性 👇

进一步阅读
欲了解更多信息,我们建议您查阅以下资源
领域概述
最新方法
作者
本节由 Clément Romac 撰写
< > 在 GitHub 上更新