C. 人工智能 --- 强化/增强学习
C. 强化/增强学习
离散
马尔可夫模型
马尔科夫链
马尔可夫决策过程
动态规划
贝尔曼方程
策略估计
策略改进
策略迭代
值迭代
蒙特卡罗方法
时间差分法
隐马尔可夫模
评估问题:前向后向算法
解码问题:维特比算法(Viterbi)
学习问题:前向后向算法(BAUM-WELCH)
不完全可观察马尔可夫决策过程
蒙特卡洛方法
Monte Carlo Learning
MC Control
On-Policy
Off-Policy
时序差分TD
Sarsa
Q-learning
连续
值近似方法
value function
policy gradient