【笔记】机器学习用到的“概率论与数理统计”知识简单回顾

概率公式:
【笔记】机器学习用到的“概率论与数理统计”知识简单回顾

常见的概率分布:
【笔记】机器学习用到的“概率论与数理统计”知识简单回顾

【笔记】机器学习用到的“概率论与数理统计”知识简单回顾
【笔记】机器学习用到的“概率论与数理统计”知识简单回顾
【笔记】机器学习用到的“概率论与数理统计”知识简单回顾
【笔记】机器学习用到的“概率论与数理统计”知识简单回顾


—————————以上讲的概率问题,以下讲的统计问题—————————-


【笔记】机器学习用到的“概率论与数理统计”知识简单回顾

【笔记】机器学习用到的“概率论与数理统计”知识简单回顾

概率统计与机器学习的关系:
把概率统计和我们之前讲的机器学习有监督学习的算法结合起来看:
【笔记】机器学习用到的“概率论与数理统计”知识简单回顾

在做机器学习之前,要看一下手中已知的样本的标签的分布和各个特征的分布,通过观察,各个特征对应的分布与标签对应的分布的关系,大致上就可以评估出哪个特征跟标签的相关性最强,哪个特征跟标签的相关性弱,从而筛选出相关性比较强的特征,相关性比较弱的特征就可以不用理会。会大大简化算法的计算量,少走弯路。
算出两个(特征对应的分布)分布的协方差cov(x1,x2),如果值为1,那么,这两个分布为线性分布。那么某个特征1*权重 = 某个特征2,满足线性关系。如果,样本集中的特征1 和特征2 都是线性关系,那么,可以适当的扔掉其中一个特征。
特征与标签的协方差,如果值为1,那么,就很简单了。更多时候,需要评估每一个特征跟标签的协方差, 如果某个特征与标签的协方差为0,那么,就可以扔掉这个特征,因为,该特征是完全无关的特征。
所以,协方式是一个选择特征,或者说,评估特征和模型相关性的指标。
【笔记】机器学习用到的“概率论与数理统计”知识简单回顾

概率统计与机器学习的关系:
【笔记】机器学习用到的“概率论与数理统计”知识简单回顾

重要的统计量:
都是描述全局(整体)统计量
期望:概率加权下样本的平均值。
方差
协方差:注意相关系数的计算。

【笔记】机器学习用到的“概率论与数理统计”知识简单回顾
【笔记】机器学习用到的“概率论与数理统计”知识简单回顾
【笔记】机器学习用到的“概率论与数理统计”知识简单回顾