C. 人工智能 --- 强化/增强学习

C. 人工智能 --- 强化/增强学习

C. 强化/增强学习
	离散
		马尔可夫模型
			马尔科夫链
			马尔可夫决策过程
				动态规划
					贝尔曼方程
					策略估计
					策略改进
					策略迭代
					值迭代
				蒙特卡罗方法
				时间差分法
			隐马尔可夫模
				评估问题:前向后向算法
				解码问题:维特比算法(Viterbi)
				学习问题:前向后向算法(BAUM-WELCH)
			不完全可观察马尔可夫决策过程
		蒙特卡洛方法
			Monte Carlo Learning
			MC Control
				On-Policy
				Off-Policy
		时序差分TD
			Sarsa
			Q-learning
	连续
		值近似方法
			value function
			policy gradient