深度强化学习课程文档

基于模型的强化学习(MBRL)

Hugging Face's logo
加入 Hugging Face 社区

并获得增强的文档体验

开始使用

基于模型的强化学习 (MBRL)

基于模型的强化学习与无模型强化学习的区别仅在于学习一个*动力学模型*,但这会对决策方式产生实质性的下游影响。

动力学模型通常模拟环境的转换动力学,st+1=fθ(st,at) s_{t+1} = f_\theta (s_t, a_t) 但在此框架中也可以使用逆动力学模型(将状态映射到动作)或奖励模型(预测奖励)等。

简单定义

  • 有一个智能体反复尝试解决问题,**积累状态和动作数据**。
  • 利用这些数据,智能体创建一个结构化的学习工具,*动力学模型*,用于推理世界。
  • 有了动力学模型,智能体通过**预测未来来决定如何行动**。
  • 通过这些行动,**智能体收集更多数据,改进该模型,并有望改进未来的行动**。

学术定义

基于模型的强化学习(MBRL)遵循智能体与环境交互的框架,**学习该环境的模型**,然后**利用该模型进行控制(做出决策)**。

具体来说,智能体在一个由转换函数控制的马尔可夫决策过程(MDP)中行动st+1=f(st,at) s_{t+1} = f (s_t , a_t) 并在每一步返回奖励r(st,at) r(s_t, a_t) 。利用收集到的数据集D:=si,ai,si+1,ri D :={ s_i, a_i, s_{i+1}, r_i} ,智能体学习一个模型,st+1=fθ(st,at) s_{t+1} = f_\theta (s_t , a_t) 以最小化转换的负对数似然.

我们使用基于采样的模型预测控制 (MPC) 和学习到的动力学模型,该模型优化了在有限的递归预测范围内的预期奖励,τ \tau ,从均匀分布中采样的一组动作U(a) U(a) ,(参见论文论文论文)。

延伸阅读

有关 MBRL 的更多信息,我们建议您查看以下资源

作者

本节由Nathan Lambert撰写。

< > 在 GitHub 上更新