Datawhale打卡-统计学(Day4)
线性回归
- 坐标系中若干点,找出一条直线y=mx+b,使这些点到该直线上同一横坐标的点的距离的平方和最小,求斜率m与截距b
-
上面的公式其实是m,b以及组成的曲面,其中要想求得m和b,最小化平方误差就是找到曲面的最低点,故可以转化为求偏导为零的点 - 决定系数为R—Squared,如果直线的平方误差很小,意味着直线拟合的很好,这时候R-Squared接近1,相反若平方误差很大,则R-Squared就会接近0
- 协方差是表示两随机变量同步程度的,是这两个随机变量离各自均值距离之积的期望值
卡方分布
- 假设~N(0,1),i=1,…,n,且相互独立,使变量
则Q服从自由度为n的卡方分布 - 有两种卡方检验,一种是皮尔逊卡方检验,一种是列联表卡方检验
方差分析
- 分析数据总波动是有多少由于组内波动造成的,有多少是由于组外波动造成的
- 其中SST是方差的分子部分,自由度为m*n-1
- 还有SSW是组内平方和,也即不同分组内数据对组内均值差的平方和之和,自由度为m*(n-1),知道哥组内n-1个数据就可以求出第n个数据的值
- SSB为组件平方和,总波动有多少是因为组均值之间的波动,也即不同分组均值对总均值差的平方和,自由度为m-1
- SST的自由度等于SSB与SSW之和,由此可说明数据的总波动可以分解为两个分量的波动之和,一个是组内,一个是组间
F统计量假设检验
F统计量:[SSB/(m-1)}/{SSW/[m(n-1)]}
若分子比分母大很多,说明波动大多数来自于各组之间
因果性与相关性
存在因果性一定相关,但是相关不一定是因果