深度强化学习课程文档

基于模型的强化学习 (MBRL)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

基于模型的强化学习 (MBRL)

基于模型的强化学习与其无模型对应方法的主要区别在于学习一个动力学模型,但这会对决策方式产生重大的下游影响。

动力学模型通常对环境转移动态进行建模,st+1=fθ(st,at) s_{t+1} = f_\theta (s_t, a_t) ,但诸如逆动力学模型(从状态到动作的映射)或奖励模型(预测奖励)之类的东西也可以在此框架中使用。

简单定义

  • 存在一个智能体,它反复尝试解决问题,积累状态和动作数据
  • 利用这些数据,智能体创建一个结构化的学习工具,一个动力学模型,以推理世界。
  • 借助动力学模型,智能体通过预测未来来决定如何行动
  • 通过这些行动,智能体收集更多数据,改进所述模型,并有望改进未来的行动

学术定义

基于模型的强化学习 (MBRL) 遵循智能体在环境中交互的框架,学习所述环境的模型,然后利用该模型进行控制(做出决策)

具体来说,智能体在由转移函数支配的马尔可夫决策过程 (MDP) 中行动st+1=f(st,at) s_{t+1} = f (s_t , a_t) 并在每个步骤返回奖励r(st,at) r(s_t, a_t) 。 使用收集的数据集D:=si,ai,si+1,ri D :={ s_i, a_i, s_{i+1}, r_i} ,智能体学习一个模型,st+1=fθ(st,at) s_{t+1} = f_\theta (s_t , a_t) 以最小化转移的负对数似然.

我们使用基于样本的模型预测控制 (MPC),利用学习到的动力学模型,优化在有限的、递归预测范围内的预期奖励,τ \tau ,来自从均匀分布中采样的动作集U(a) U(a) ,(参见论文论文论文)。

延伸阅读

有关 MBRL 的更多信息,我们建议您查看以下资源

作者

本节由 Nathan Lambert 撰写

< > 在 GitHub 上更新