Datawhale打卡之统计学(day1)
一 统计学基本知识、二项及泊松分布
1.基本知识
均值:一组数相加后除以个数,分为样本均值与总体均值
中位数:从小到大排列,最中间的为中位数,偶数个取中间两数平均值
众数:出现次数最多的数字
极差: 一组数最大和最小的差
中程数:最大数与最小数的均值
方差:
标准差:
随机变量不是传统意义上的变量,而是一种由随机过程映射到数值的函数,分为离散型与连续型
概率密度函数:
1.离散随机变量中每个变量有值且有意义
2.连续随机变量中某个具体变量概率值可为0,且一个变量范围内的概率有值且有意义,概率密度是一个函数,用于计算连续变量的某一个范围空间内的概率
2.二向分布以及泊松分布
二项分布:重复n次的伯努利试验,在每次试验中只有两种结果,其期望值为E(X)=np,n为随机试验次数,p为某一次的成功概率
泊松分布:累计随机事件发生次数的最基本的独立增量过程,也就是二项分布的极限情况
二 . 大数定律与正态分布
1.大数定律
若样本总量足够大,那么样本均值将趋于期望值
2.正态分布
正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。
横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
由于“小概率事件”和“假设检验”的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。