蒙特卡洛与时序差分学习

在深入了解 Q-学习之前，我们需要讨论的最后一件事是两种学习策略。

请记住，强化学习智能体**通过与环境交互来学习。**其理念是，**根据经验和收到的奖励，智能体将更新其价值函数或策略。**

蒙特卡洛和时序差分学习是两种不同的**训练价值函数或策略函数的策略。**它们都**利用经验来解决强化学习问题。**

一方面，蒙特卡洛**在学习之前使用整个回合的经验。**另一方面，时序差分**只使用一个步骤（ $S_t, A_t, R_{t+1}, S_{t+1}$ ）来学习。**

我们将**使用基于价值的方法示例**来解释这两种方法。

蒙特卡洛：在回合结束时学习

蒙特卡洛等待到回合结束，计算 $G_t$ （回报），并将其用作**更新 $V(S_t)$ 的目标。**

因此，它需要**完整的交互回合才能更新价值函数。**

如果我们举一个例子：

我们总是**从相同的起点**开始回合。
**智能体使用策略采取行动。**例如，使用 Epsilon Greedy 策略，这是一种在探索（随机行动）和利用之间交替的策略。
我们获得**奖励和下一个状态。**
如果猫吃了老鼠，或者老鼠移动了 > 10 步，我们就终止回合。
在回合结束时，**我们有一个状态、行动、奖励和下一个状态元组的列表。**例如 [[状态瓦片 3 底部，向左，+1，状态瓦片 2 底部]，[状态瓦片 2 底部，向左，+0，状态瓦片 1 底部]…]
**智能体将对总奖励 $G_t$ **求和（以查看其表现如何）。
然后它将**根据公式更新 $V(s_t)$ 。**
然后**用这些新知识开始新游戏。**

通过运行越来越多的回合，**智能体将学会玩得越来越好。**

例如，如果我们使用蒙特卡洛训练状态价值函数

我们有一个状态、行动、奖励、下一个状态的列表，**我们需要计算回报 $G{t=0}$ **。 $G_t = R_{t+1} + R_{t+2} + R_{t+3} ...$ （为简单起见，我们不对奖励进行折扣） $G_0 = R_{1} + R_{2} + R_{3}…$ $G_{0} = 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 0 + 0$ $G_0 = 3$
我们现在可以计算**新的** $V(S_0)$ :
$V(S_0) = V(S_0) + lr * [G_0 — V(S_0)]$ $V(S_0) = 0 + 0.1 * [3 – 0]$ $V(S_0) = 0.3$