词汇表

这是一个社区创建的词汇表。欢迎贡献！

深度Q学习（Deep Q-Learning）：一种基于价值的深度强化学习算法，使用深度神经网络来近似给定状态下动作的Q值。深度Q学习的目标是通过学习动作价值来找到最大化预期累积奖励的最优策略。
基于价值的方法（Value-based methods）：强化学习方法，通过估计价值函数作为找到最优策略的中间步骤。
基于策略的方法（Policy-based methods）：强化学习方法，直接学习近似最优策略，而不学习价值函数。实际上，它们输出动作的概率分布。

与基于价值的方法相比，使用策略梯度方法的优点包括：
- 集成简便：无需存储动作值；
- 能够学习随机策略：智能体探索状态空间，而不是总是采取相同的轨迹，并避免了感知混叠问题；
- 在高维和连续动作空间中有效；以及
- 改进了收敛特性。
策略梯度（Policy Gradient）：基于策略方法的一个子集，其目标是使用梯度上升来最大化参数化策略的性能。策略梯度的目标是通过调整策略来控制动作的概率分布，使好的动作（最大化回报的动作）在未来被更频繁地采样。
蒙特卡洛强化（Monte Carlo Reinforce）：一种策略梯度算法，使用整个回合的估计回报来更新策略参数。

如果您想改进本课程，可以提交拉取请求。

本词汇表的制作得益于

深度强化学习课程