C. 人工智能 --- 强化/增强学习

C. 强化/增强学习
	离散
		马尔可夫模型
			马尔科夫链
			马尔可夫决策过程
				动态规划
					贝尔曼方程
					策略估计
					策略改进
					策略迭代
					值迭代
				蒙特卡罗方法
				时间差分法
			隐马尔可夫模
				评估问题：前向后向算法
				解码问题：维特比算法（Viterbi）
				学习问题：前向后向算法（BAUM-WELCH）
			不完全可观察马尔可夫决策过程
		蒙特卡洛方法
			Monte Carlo Learning
			MC Control
				On-Policy
				Off-Policy
		时序差分TD
			Sarsa
			Q-learning
	连续
		值近似方法
			value function
			policy gradient

C. 人工智能 --- 强化/增强学习

相关推荐