基于模型的强化学习 (MBRL)

基于模型的强化学习与无模型强化学习的区别仅在于学习一个*动力学模型*，但这会对决策方式产生实质性的下游影响。

动力学模型通常模拟环境的转换动力学， $s_{t+1} = f_\theta (s_t, a_t)$ 但在此框架中也可以使用逆动力学模型（将状态映射到动作）或奖励模型（预测奖励）等。

简单定义

有一个智能体反复尝试解决问题，**积累状态和动作数据**。
利用这些数据，智能体创建一个结构化的学习工具，*动力学模型*，用于推理世界。
有了动力学模型，智能体通过**预测未来来决定如何行动**。
通过这些行动，**智能体收集更多数据，改进该模型，并有望改进未来的行动**。

学术定义

基于模型的强化学习（MBRL）遵循智能体与环境交互的框架，**学习该环境的模型**，然后**利用该模型进行控制（做出决策）**。

具体来说，智能体在一个由转换函数控制的马尔可夫决策过程（MDP）中行动 $s_{t+1} = f (s_t , a_t)$ 并在每一步返回奖励 $r(s_t, a_t)$ 。利用收集到的数据集 $D :={ s_i, a_i, s_{i+1}, r_i}$ ，智能体学习一个模型， $s_{t+1} = f_\theta (s_t , a_t)$ 以最小化转换的负对数似然.

我们使用基于采样的模型预测控制 (MPC) 和学习到的动力学模型，该模型优化了在有限的递归预测范围内的预期奖励， $\tau$ ，从均匀分布中采样的一组动作 $U(a)$ ，（参见论文或论文或论文）。

作者

本节由Nathan Lambert撰写。

< > 在 GitHub 上更新

深度强化学习课程

基于模型的强化学习 (MBRL)

简单定义

学术定义

延伸阅读

作者