Hugging Face
模型
数据集
空间
帖子
文档
解决方案
定价
登录
注册
深度强化学习课程文档
补充阅读
深度强化学习课程
🏡 查看所有资源
音频课程
社区计算机视觉课程
深度强化学习课程
扩散课程
3D 机器学习课程
游戏机器学习课程
自然语言处理课程
开源 AI 食谱
搜索文档
EN
单元 0. 欢迎来到课程
单元 1. 深度强化学习简介
单元 1 附加内容. 使用 Huggy 的深度强化学习简介
直播 1. 课程工作方式、问答和使用 Huggy
单元 2. Q-学习简介
单元 3. 使用 Atari 游戏的深度 Q-学习
单元 2 附加内容. 使用 Optuna 进行自动超参数调整
单元 4. 使用 PyTorch 的策略梯度
单元 5. Unity ML-Agents 简介
单元 6. 使用机器人环境的 Actor Critic 方法
单元 7. 多智能体和 AI 对抗 AI 简介
简介
多智能体强化学习 (MARL) 简介
设计多智能体系统
自我博弈
让我们训练我们的足球队来击败你同学的队伍 (AI 对抗 AI)
测验
结论
补充阅读
单元 8. 第 1 部分 近端策略优化 (PPO)
单元 8. 第 2 部分 使用 Doom 的近端策略优化 (PPO)
单元 3 附加内容. 强化学习中的高级主题
单元 5 附加内容. 使用 Godot RL 代理的模仿学习
认证和祝贺
加入 Hugging Face 社区
并获得增强型文档体验
在模型、数据集和空间上进行协作
通过加速推理获得更快的示例
在文档主题之间切换
注册
入门
补充阅读
多智能体简介
多智能体强化学习:概述
多智能体强化学习,Marc Lanctot
多智能体环境示例
不同多智能体环境的列表
多智能体强化学习:独立智能体与合作智能体
处理多智能体深度强化学习中的非平稳性
自我博弈和 MA-POCA
自我博弈理论以及使用 MLAgents
使用 MLAgents 训练复杂行为
MLAgents 玩躲避球
关于多智能体强化学习中吸收状态的应用与误用 (MA-POCA)
<
>
更新
在 GitHub 上
←
结论
简介
→
补充
阅读
多智能体简介
自我-
博弈 和 M
A-POCA