机器学习深入与强化--数学基础(2)

一、概率与统计

1、不是为了学习概率与统计,而是为了进行机器学习而补充相关的概率统计知识。

2、概率与统计的水很深,不必强求全面。

3、关键是打通概率与统计和机器学习的关系。


二、概率与统计的差别:两种相反的思路

概率:已知总体,求某种事件发生的概率。

统计:已知事件,估计产生这个时间的总体的分布。


三、概率统计与机器学习的关系

1、统计估计的是分布,机器学习训练出来的是模型,模型可能包含了很多的分布

2、训练与预测过程的一个核心评价指标就是模型的误差,误差本身就可以是概率的形式

3、对误差的不同定义方式就演化成了不同的损失函数

4、机器学习是概率与统计的进阶版本(不严谨的说法)


四、重要统计量

机器学习深入与强化--数学基础(2)

机器学习深入与强化--数学基础(2)

机器学习深入与强化--数学基础(2)

协方差很重要:衡量两个变量的总体误差!!!

机器学习深入与强化--数学基础(2)

机器学习深入与强化--数学基础(2)

机器学习深入与强化--数学基础(2)


协方差也有上界!!!


机器学习深入与强化--数学基础(2)

Pearson相关系数:越靠近1,越相关;越靠近0,越不相关。

机器学习深入与强化--数学基础(2)

机器学习深入与强化--数学基础(2)

相关系数可用于降维:留下相互独立的特征,留下与标签相关性强的特征。


三、重要定理和不等式

凸函数:期望的函数<=函数的期望

机器学习深入与强化--数学基础(2)

机器学习深入与强化--数学基础(2)

由切比雪夫不等式,就可以硬推大数定理:

机器学习深入与强化--数学基础(2)

机器学习深入与强化--数学基础(2)


大数定律是整个统计学的基础。


机器学习深入与强化--数学基础(2)

四、用样本估计参数--极大似然估计

机器学习深入与强化--数学基础(2)

极大似然估计理解

已经发生的事件就是发生概率最大的事件,由此对当前事件的概率求导,当导数取最大时,求出相应的参数的值。

xi可以看做是一个事件,后面的k个参数θj可以看做一个分布的k个参数。通过这k个参数求得某一事件的发生概率,再对概率求导。