【统计学习方法读书笔记】(一)统计学习及监督学习概论

最近在面试过程中,发现对于AI算法岗位,基本的机器学习、统计学习理论的考察是非常重要的,因此决定先过一遍《统计学习方法》,为了回顾学过的知识,以问答的形式建此博客,整理学习中的思考,也希望同道中人一起讨论学习
【统计学习方法读书笔记】(一)统计学习及监督学习概论

统计学习概论

1、在研究统计学习方法的过程中需要哪些步骤?

  1. 得到一个有限的训练数据集;
  2. 确定所有可能的模型假设空间(换句话说就是找几个你觉得比较合适的模型);
  3. 确定学习策略(如损失函数、激励方法等,以便于从众多模型中选择一个比较适合的模型);
  4. 通过学习方法得到最优的模型;
  5. 利用学习的最优模型对新数据进行预测与分析;

2、统计学习方法主要包括哪几类?

  • 监督学习
  • 无监督学习
  • 强化学习
  • 半监督学习
  • 主动学习

3、分类问题和回归问题的区别是什么?

  • 分类问题:输出变量为离散的;
  • 回归问题:输入变量与输出变量都是连续的;

连续:可以理解为在空间中取值是线(面);离散:在空间中取值是点

4、监督学习与无监督学习的区别是什么?

  • 监督学习的样本都是有标注的;无监督学习的样本是没有标注的。

5、什么是强化学习?

  • 强化学习一般指系统与环境的连续互动中学习最优行为策略(感觉就是让模型自己去学习最优策略,人为的干预相对少一点,感觉这和GAN模型就一样了,书中将马尔科夫决策过程与强化学习结合在一起,可能需要后期学习完马尔科夫才能有更深的理解了)

6、什么是主动学习?

  • 主动学习指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型,目的是找出对学习最优帮助的实例让老师标注,减轻标注代价(其实这里的陈述和GAN也是有相同之处的)

7、概率模型和非概率模型又是什么?

  • 概率模型:其分布形式多为P(yx)P(y|x),无监督学习中取P(xz)P(x|z)P(zx)P(z|x),监督学习中,多为生成模型,主要包括:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型等。
  • 非概率模型:其分布形式为y=f(x)y=f(x),无监督学习中函数形式为z=f(x)z=f(x),监督学习中常是判别模型,主要包括:感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析、神经网络等。

8、线性模型与非线性模型都包括哪些?

  • 线性模型:感知机、线性支持向量机、k近邻、k均值、潜在语义分析等;
  • 非线性模型:核函数支持向量机、AdaBoost、神经网络等;

9、常见的损失函数都有哪些?

损失函数一般用来度量模型预测错误的程度,主要包括如下几种:

  • 0-1损失函数:L(Y,f(X))={1,Yf(X)0,Y=f(X)L(Y,f(X))=\left\{\begin{matrix} 1, Y\neq f(X) \\ 0, Y=f(X) \end{matrix}\right.
  • 平方随时函数: L(Y,f(X))=(Yf(X))2L(Y,f(X))=(Y-f(X))^{2}
  • 绝对损失函数: L(Y,f(X))=Yf(X)L(Y,f(X))=|Y-f(X)|
  • 对数(似然)损失函数(说实话,我一直没明白这个”似然“是什么意思?下面有一段来自wiki的解释): L(Y,P(YX))=logP(YX)L(Y,P(Y|X))=-logP(Y|X)
  • 损失函数越小,模型就越好。

”似然“与”概率“:

  • 似然性:用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值。
  • 概率:用于在已知一些参数的情况下,预测接下来在观测上所得到的结果。

10、什么是过拟合?

  • 过拟合一般指在选取模型的时候,使用了过多的参数,导致模型对于已知数据的预测效果非常好,但缺少泛化能力,对未知数据的预测能力很差。(一个好的模型就像一个会学习的同学一样,他绝对不是单纯的做一道题,而是可以通过知识点的学习而解决多道问题)