Hugging Face
模型
数据集
Spaces
帖子
文档
企业版
定价
登录
注册
深度强化学习课程文档
补充阅读
深度强化学习课程
🏡 查看所有资源
Agents 课程
音频课程
社区计算机视觉课程
深度强化学习课程
扩散模型课程
LLM 课程
3D 机器学习课程
游戏机器学习课程
开源 AI 食谱
搜索文档
中文
单元 0. 欢迎来到课程
单元 1. 深度强化学习导论
奖励单元 1. 使用 Huggy 的深度强化学习导论
直播 1. 课程运作方式、问答环节以及与 Huggy 一起玩
单元 2. Q-学习导论
单元 3. 基于 Atari 游戏的深度 Q-学习
奖励单元 2. 使用 Optuna 的自动超参数调优
单元 4. 基于 PyTorch 的策略梯度
单元 5. Unity ML-Agents 导论
单元 6. 基于机器人环境的 Actor Critic 方法
单元 7. 多智能体和 AI vs AI 导论
导论
多智能体强化学习 (MARL) 导论
设计多智能体系统
自博弈
让我们训练我们的足球队击败你同学的队伍 (AI vs. AI)
测验
结论
补充阅读
单元 8. 第 1 部分 近端策略优化 (PPO)
单元 8. 第 2 部分 基于 Doom 的近端策略优化 (PPO)
奖励单元 3. 强化学习中的高级主题
奖励单元 5. 基于 Godot RL Agents 的模仿学习
认证与祝贺
加入 Hugging Face 社区
并获得增强的文档体验
在模型、数据集和 Spaces 上协作
通过加速推理获得更快的示例
切换文档主题
注册
开始
补充阅读
多智能体导论
多智能体强化学习:概述
多智能体强化学习,Marc Lanctot
多智能体环境示例
不同多智能体环境列表
多智能体强化学习:独立智能体 vs. 协作智能体
处理多智能体深度强化学习中的非平稳性
自博弈和 MA-POCA
自博弈理论与 MLAgents
使用 MLAgents 训练复杂行为
MLAgents 玩躲避球
关于多智能体强化学习中吸收态的正确与错误使用 (MA-POCA)
<
>
更新
在 GitHub 上
←
结论
导论
→
补充
阅读
多智能体导论
自博弈和 M
A-POCA