统计学基本知识 #datawhale 任务四

线性回归

平方误差

每个点同回归直线的竖直距离
SEline=i=1nyi(mxi+b)2SE_{line} = \sum^n_{i=1}(y_i -(mx_i + b))^2
可以看作直线对数据点拟合程度的度量

设回归直线 y=mx+by = mx +b
由公式拆分推导可得:
统计学基本知识 #datawhale 任务四

决定系数

概念:y的波动程度有多少百分比能被x的波动程度所描述
统计学基本知识 #datawhale 任务四

协方差

概念:两随机变量离各自均值之积的期望值,同步程度决定协方差的大小
统计学基本知识 #datawhale 任务四

卡方分布

假设XiN(0,1)X_i - N(0,1), i=1,2,3,.......,ni =1,2,3,.......,n,且相互独立。令变量 Q=i=1nXi2Q = \sum^n_{i=1} X^2_i,则Q服从自由度为n的卡方分布。

皮尔逊卡方检验

X2=2/X^2=∑{【(实际频数-理论频数的)^2】/理论频数}

每个数据点注意标准化,即除以理论频数

自由度的计算:
n个数据点只有n-1个自由度,是因为根据n-1个数据点可以推算出第n个数据的信息(以存取的信息量为准)

列联表卡方检验

自由度:11(行数-1)*(列数-1)

方差分析

分析数据总波动有多少是由于组内波动造成的,有多少是由于组外波动造成的
SST:方差的分子部分,自由度为mn1m *n-1
SSB:组内平方和,概念为总波动是有多少因为组均值之间的波动,自由度为m-1
SSW:组内平方和,不同分组内数据对组均值差的平方和之和,自由度为m(n1)m*(n-1)
由此可发现
SST的自由度=SSB自由度+SSW自由度
说明数据的总波动分解为两个分量的波动之和,一个组内,一个组间。