《人人都会数据分析》笔记:概率分布
左图:离散型概率分布
图形:一条条垂直于X轴的垂线(也可以是矩形柱)。X轴与竖线相交的端点是事件可能发生的结果,
Y轴是对应结果发生的概率。离散型概率分布的函数被称为概率质量函数,较常见的有二项分布、多
项分布、超几何分布和泊松分布等。
右图:连续性概率分布
图形:一条连续的曲线,因为事件发生的结果可以是X轴上的任意一点。Y轴表示事件结果对应的概率密度
(区别于概率),概率值等于曲线下的积分面积。曲线下方总面积为1(概率总和是100%)连续型概率分布
曲线对应的函数被称为概率密度函数,而积分面积对应的函数被称为概率累积函数。常用的连续型概率分布
有指数分布、均匀分布和正态分布。
常见的概率分布类型
二项分布与多项分布
二项分布研究的实验只有两个:A与非A;如果试验的结果多于两个,但只关注其中一个结果时,也可以看做
只有两个试验结果。如果两个结果的发生概率已知,那么从总体中抽取N个个体,这N个个体中,有K个个体
的结果是A的概率可以求解,由这些(1个,2个,……,K个)概率组成的概率分布称为二项分布。多项分布
是试验结果有多个的推广。
超几何分布
二项分布与多项分布中每个结果发生的概率是不变的,相当于有放回抽样或无限总体的无放回抽样(总量不变或近似不变)。
而超几何分布试验结果的发生概率会随着每次试验发生而变化,相当于有限总体无放回抽样(总量变化)。
泊松分布
基于过去的经验(随机事件在某段时间或空间发生的平均数)预测该随机事件在新的同样长的时间或同样大
的空间中发生N次的概率。
正态分布
均匀分布
随机变量X的取值有相等的概率(古典统计学:掷骰子)
指数分布
应用于两次随机事件之间发生的时间间隔的概率。泊松分布是某一区间内发生随机事件次数的概率分布