统计学基本知识 #datawhale 任务三

统计学

分布的描述

偏态

表示数据分布的不对称性,指数据分布的偏斜方向和程度。测定指标用偏态系数SK表示。偏态有正负之分。

峰度

表示数据分布的尖峭程度或峰凸程度,根据变量值的集中与分散程度,峰度一般可表现为三种形态:尖顶峰度、平顶峰度和标准峰度。测定指标用峰度系数K表示。K越大,峰越尖。

中心极限定理

在一定条件下,多个相互独立的随机变量的均值(或其他数字特征如极差),服从或近似正态分布。
对随机变量的均值做抽样分布,样本容量需要趋近于无穷大,这样样本均值的抽样分布才会服从正态分布,且该分布的均值会趋近于随机变量的均值。并且大样本对应较小的方差和标准差。
样本均值分布的标准差称作均值标准差,记作σx\sigma_x,随机变量的标准差为σ\sigma,n为抽样的样本容量,则有:
σx2=σ2n\sigma^2_x =\frac{\sigma^2}{n}
也称均值标准误差。

抽样估计

又称参数估计,包括抽样调查和抽样估计两部分,意在运用梳理统计原理,根据抽样调查资料,对研究对象全体的数量特征做出具有可靠性的推断。

置信区间

指用样本估计总体时的估计区间,这个过程属于区间估计。

伯努利分布

又称0-1 分布,指事件只有正反两面,且发生概率相等(例如抛硬币)的分布。是一个离散概率分布。
设事件成功概率为p,失败则为1-p,均值为p,方差为p(1-p)。
推导:
统计学基本知识 #datawhale 任务三