一些关于数据挖掘所需要的统计基础(5)
大家好~这一次我们来简单说一些关于数据挖掘所需要的统计学基础。不会很深奥哦,我尽量用大白话把它解释清楚。因为我也是大菜鸡,也还在学习
为了以后更好的完成我们的各项任务,所以有几个概念呢在这里预先做一下解释和说明。
1. 均值
2. 方差
3. 大数定理
4. 中心极限定理
5. 假设检测
6. p-value值的简单介绍
前几个概念都不难,主要是解释最后两个概念。
==================================
1. 均值
均值就是平均数······最为简单的一个概念
在这里不多做解释了····
==================================
2. 方差
上过高中的朋友应该都知道它吧。方差是各个数据分别与其平均数之差的平方的和的平均数,用字母D表示。在概率论和数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。
x 表示样本的平均数,n 表示样本的数量,xi 表示个体,而s^2就表示方差。
==================================
3. 大数定理
可以把它简单的理解为:
当样本的数量越来越多,那么它的期望值,也就越接近平均值。当大量重复某一实验时,最后的频率无限接近事件概率。
==================================
4. 中心极限定理
简单的理解为:
在适当条件下,大量相互独立的、随机的变量的均值,经过适当的标准化后,其分布收敛于正态分布。
==================================
5/6. 假设检验和p-value值的介绍
重点来了。有点小复杂。
用一个例子来说明一下吧
一个司机酒驾问题。分为四种情况。
(1)司机没喝酒,酒驾检测正常,没超标,放行
(2)司机没喝酒,酒驾检测出了问题,(可能是设备坏了啊,天气不好啊,运气太差啊),超标,被抓了
(3)司机喝酒了,酒驾检测正常(运气爆棚,没查出来),没超标,放行
(4)司机喝酒了,酒驾被抓(活该)
现在做一个原假设:司机没喝酒
既然有原假设,那就也有备择假设:司机喝酒了
我们将原假设当做一个标准(司机没喝酒)去衡量一个事件,判断司机到底有没有喝酒。
--如果衡量的这个事件,发现这个事件发生的概率极低极低,那么我们可以拒绝原假设。
--如果衡量的这个事件,发现这个事件发生的概率不是那么低,是有可能的,那么我们将不拒绝原假设。
如图所示:
图中蓝色区域,表示没喝酒的情况,也就是我们一开始原假设的情况。
图中橙色区域,表示喝了酒的情况,也就是我们一开始备择假设的情况。
我们现在呢,以“没喝酒”这个标准去衡量司机到底有没有喝酒这个事件
如果检测出来的结果为上述第(2)种情况,即没喝酒还被判断为酒驾,这种极小概率发生的事件属于下图红色涂抹区域:
这种极端的情况发生的概率之和,被称为p-value。
再白话一点,假如酒精检测判断是否酒驾的标准为20mg/100ml。
一个司机没有喝酒,但是酒驾检查,发现他的酒精含量为21mg,出现这种事情的概率就属于“极低概率事件”。
当然不仅有可能是21mg,还有可能是22mg,23mg等等,都有可能,只不过这个可能性,都非常非常的低。
所有这些低概率事件之和得到一个的总值,即为p-value。
谢谢大家~