深度强化学习课程文档

(自动)课程学习强化学习

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

(自动)课程学习强化学习

虽然本课程中看到的大多数强化学习方法在实践中都运行良好,但在某些情况下,单独使用它们会失败。 例如,当...

  • 学习的任务很困难,需要逐步掌握技能(例如,当想要让双足智能体学习通过困难的障碍时,它必须首先学会站立,然后行走,然后可能跳跃……)
  • 环境中存在变化(影响难度),并且希望智能体对这些变化具有鲁棒性
Bipedal Movable creepers
TeachMyAgent

在这种情况下,似乎需要为我们的强化学习智能体提出不同的任务,并组织它们,以便智能体逐步掌握技能。 这种方法称为课程学习,通常意味着手动设计的课程(或以特定顺序组织的任务集)。 在实践中,例如,可以控制环境的生成、初始状态,或者使用自博弈并控制提供给强化学习智能体的对手级别。

由于设计这样的课程并非易事,因此自动课程学习 (ACL) 领域提出了设计学习创建此类任务组织的方法,以最大化强化学习智能体的性能。 Portelas 等人提议将 ACL 定义为

... 一系列机制,通过学习调整学习情境的选择以适应强化学习智能体的能力,从而自动调整训练数据的分布。

例如,OpenAI 使用了领域随机化(他们在环境中应用了随机变化)来使机器人手解决魔方。

Dr
OpenAI - 使用机器人手解决魔方

最后,您可以通过控制环境变化甚至绘制地形,在 TeachMyAgent 基准测试中,体验经过训练的智能体的鲁棒性 👇

Demo
https://huggingface.co/spaces/flowers-team/Interactive_DeepRL_Demo

进一步阅读

为了获得更多信息,我们建议您查看以下资源

领域概述

最新方法

作者

本节由 Clément Romac 撰写

< > 更新在 GitHub 上