【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。
关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline 。我的强化学习资源仓库:
https://github.com/PiperLiu/Reinforcement-Learning-practice-zh
我的 **** 强化学习博客集合:
https://blog.****.net/weixin_42815609/category_9592110.html
本节内容综述
- 本节课是 B 站集合的最后一节课,由助教
林义圣
讲解。介绍些 RL 的新技术。 - 强化学习有许多难题:探索与开发间的平衡、采样效率。
- 首先介绍 Model-based RL 。其中讨论了 Alpha 系列(基于蒙特卡洛树搜索),以及 Dream to Control 。
- 接着,介绍了 Meta-RL 。
- 接下来讲一讲 Priors ,从之前学过的东西中抽取中有用的知识。
- Multi-agent RL 。
文章目录
小细节
Model-based RL
从经验中学习一个 Model ,然后从 Model 上仿真学习。
AlphaGo to AlphaZero, MuZero
AlphaGo -> AlphaGo Zero -> AlphaZero -> MuZero
AlphaGo 可以理解为“很厉害的树搜索”,但是需要 pre-training 。
AlphaZero 不需要 pre-training ,在自我对弈时就引入蒙特卡洛树搜索。
MuZero 则可以自己学习环境模型。
如上,有三个网络,分工为:
- 把环境抽象为某一状态空间(h);
- 如何在这状态空间进行状态转换(a);
- 使用什么动作最优(f)。
Dream to Control
这篇文章则没有使用蒙特卡洛树搜索。
完全去学习环境的建模,然后完全在自己想象的模型上去学习。
Automatic Domain Randomization
OpenAI 为了训练机械手臂,在自己建模中,加入了大量干扰信号,以让其在真实世界能够完成任务。
Meta-RL
如上,Meta-RL 还要输入过去的信息。
可以用 Meta-RL 学习 RL 的超参数、Loss Functions 、Exploration Strategies 。
Prior
To obtain effective and fast-adapting agents, the agent can rely upon previously distilled knowledge in the form of a prior distribution.
The following two papers propose two distinct ways:
- Simultaneous learning of a goal-agnostic default policy
- Learning a dense embedding space to represent a large set of expert behaviors
Goal-agnostic Prior Policy
如上,两个网络,给第二个网络部分状态信息(比如没有目标位置,只有机器人身体姿势),然后其输出用 KL 与正常网络输出拉近。这样,第二个网络可以学到比较泛化的、与目标无关的特征。
Learn from Experts
比如机器人要学习人的后空翻,那先给机器人看专家的动作,让其学习。此外,还有很多细节,具体需要见原文。
Multi-agent RL
这是一个很复杂的问题。
也有很多可研究的思路。
MADDPG
如上,把别人的状态也输入到自己的状态中来。
Social Influence as Intrinsic Motivation
A mechanism for achieving coordination in multi-agent RL through rewarding agents for having causal Influence over other agents actions.
- Actions that lead to bigger changes in other agents behavior are considered influential and are rewarded.
- Influence is assessed using counterfactual reasoning.
in agent’s immediate reward is modified:
- environmental reward + causal influence reward
AlphaStar
如上,左部先从人类经验中学习。在最顶上的一条,进行自我对弈。
但是,它把进化中的历史“自我”也存储起来,用来与自己对弈,防止进化方向错误。
此外,还保存了一些过去打败自己的“自己”,然后也用于与自己对弈。