统计学基本知识 #datawhale 任务四
线性回归
平方误差
每个点同回归直线的竖直距离
可以看作直线对数据点拟合程度的度量
设回归直线
由公式拆分推导可得:
决定系数
概念:y的波动程度有多少百分比能被x的波动程度所描述
协方差
概念:两随机变量离各自均值之积的期望值,同步程度决定协方差的大小
卡方分布
假设, ,且相互独立。令变量 ,则Q服从自由度为n的卡方分布。
皮尔逊卡方检验
每个数据点注意标准化,即除以理论频数
自由度的计算:
n个数据点只有n-1个自由度,是因为根据n-1个数据点可以推算出第n个数据的信息(以存取的信息量为准)
列联表卡方检验
自由度:
方差分析
分析数据总波动有多少是由于组内波动造成的,有多少是由于组外波动造成的
SST:方差的分子部分,自由度为
SSB:组内平方和,概念为总波动是有多少因为组均值之间的波动,自由度为m-1
SSW:组内平方和,不同分组内数据对组均值差的平方和之和,自由度为
由此可发现
SST的自由度=SSB自由度+SSW自由度
说明数据的总波动分解为两个分量的波动之和,一个组内,一个组间。