数据分析入门:描述统计学
数据分析少不了统计学知识。统计学分为描述统计学和推断统计学。前者是对数据的认知提炼,后者是利用已知的数据推断未来。
推荐下小编的大数据学习群;251956502,不管你是小白还是大牛,小编我都欢迎,不定期分享干货,欢迎初学和进阶中的小伙伴。
每天晚上20:00都会开直播给大家分享大数据知识和路线方法,群里会不定期更新最新的教程和学习方法,大家都是学习大数据的,或是转行,或是大学生,还有工作中想提升自己能力的,如果你是正在学习大数据的小伙伴可以加入学习。最后祝所有程序员都能够走上人生巅峰,让代码将梦想照进现实,非常适合新手学习,有不懂的问题可以随时问我,工作不忙的时候希望可以给大家解惑。
一、 什么是描述统计学
描述统计学就是将一系列复杂的数据减少为几个能够起到描述作用的数字,用这些有代表性的数字来代表所有的数据。
二、为什么需要描述统计学
信息时代,数据俯仰皆是,随随便便一个产品的销售数据都可能有好几百条数据。因此,我们需要用几个简单的数字来代表这一组数据,以方便人们理解。
三、描述统计学常用指标概括
体现数据的集中趋势的指标:平均值、中位数、众数
- 平均值
1)什么是平均值
平均值也叫均值,就是将所有数字相加再除以数字的个数。
2)平均值的计算公式
3)平均值的优缺点:
优点:充分利用所有数据,适用性强。(生活中随处可见它的用途。)
缺点:容易受到极端值影响。(工资被平均,住房面积被平均,……,“被平均”俨然已经是一个热门的网络用语。什么是极端值?比如说,马云、王健林的工资,……)
2. 分位数
常用的分位数有中位数和上、下四分位数。
中位数
1)什么是中位数?
顾名思义,中位数就是在中间位置的数字。
2)怎样确定中位数?
分两步走:1. 先把所有数字从小到大排个序;2. 找出中间位置的数字。
比如下面两组数据:
Ⅰ- 4,3,1,5,2
a. 排序:1,2,3,4,5
b. 找出中间位置的数字:五个数,第三位就是中间位置,中位数是3
因此,当数据个数n是奇数,则中位数是位于中间位置的数字。
Ⅱ- 4,6,3,1,5,2
a. 排序:1,2,3,4,5,6
b. 找出中间位置的数字:六个数,中间位置有两个数,即第三、四位数,把这两个数平均一下,得到中位数是3.5
因此,当数据个数n是偶数,则中位数是位于中间的两个数的平均值。
3)中位数的优缺点:
优点:不受极端值影响
缺点:对极端值缺乏敏感性
和平均值相比,中位数不容易受到极端值的影响。如果平均值与中位数差距很大,那我们就需要检查一下是不是有极端值在影响了。
普遍情况下,我们使用均值来代表一组数据。但是当我们发现均值受到极端值影响,无法最恰当的体现这组数据的典型值,我们可以使用中位数。
四分位数
1)什么是四分位数?
从上面两张图,可以很轻易的看出,四分位数分为上四分位数和下四分位数。而四分位数相当于数据被中位数分成两部分后再分别求上下两部分的中位数。
2)怎样求四分位数?
设四分位的百分比值为y,数据的数量为n,分位数的位置可以由公式L = n × y来计算
情况1:如果L是整数,则取第L和第L+1位数的平均值
情况2:如果L不是整数,则向上离L最近的一个整数
举例说明:
Ⅰ- 4,9,7,3,10,1,5,2,8,6
a. 排序:1,2,3,4,5,6,7,8,9,10
b. 下四位数:10×25%=2.5,取向上最近的整数位第3位,下四位数=3
c. 上四位数:10×75%=7.5,取向上最近的整数位第8位,上四位数=8
当然,利用这个公式我们也能求出其它分位数,但是在统计学中,最有用的分位数是中位数和上、下四分位数,所以要特别记住他们的概念
3)上、下四分位数的用途(详见箱线图内容)
(1) 构建箱线图,比较不同组别的数据
(2) 识别异常值
箱线图
1) 什么是箱线图?
箱线图可以用图表表现出一个数据的大致分布情况。具体如下图:
箱线图的指标说明:
下四分位数:Q1,将所有数据按照从小到大的顺序排序排在第25%位置的数字
上四分位数:Q3,将所有数据按照从小到大的顺序排序排在第75%位置的数字
四分位距: IQR,等于Q3-Q1,衡量数据离散程度的一个统计量
上边缘:除异常点以外的数据中的最大值
下边缘:除异常点以外的数据中的最小值
异常值:小于Q1-k × IQR 或 大于Q3+ k × IQR的值 【k=1.5,中度异常;k=3,极度异常;】
2)怎样画箱线图
我们通过下图中的数据说明:
下四分位数(Q1):70°F
上四分位数(Q3):71.5°F
四分位距(IQR)= 71.5-70 =1.5
异常值的取值范围(k取1.5):<67.75°F 或 >73.75°F。因此,数据中300°F为异常值
上界(上边缘):73°F
下界(下边缘):69°F
由于异常值300太大,影响图幅大小,所以将异常值改成80画了个箱线图,也可以清楚的表达出数据的大致情况:
箱线图除了可以表现出一个数据的大致分布情况。还能用多个箱线图来直观的表达出不同组数据间的区别,如下图:
3. 众数
1)什么是众数?
数据中出现次数最多的数字。
2)众数的优缺点:
优点:
a. 均值和中位数只能用于数值型数据,而众数还能适用于非数值型数据。
b. 不受极端值影响。
缺点:众数缺乏唯一性,一组数据的众数可能有1个,可能有2个,也可能没有。
体现数据的离散程度的指标:极差、方差、标准差
1. 极差:最大值-最小值,简单地描述数据的范围大小
2. 方差和标准差
1)方差和标准差的定义
方差(σ²)
从公式看,方差即是每个数值到均值距离的平方的均值。平方可以避免正负抵销。
标准差(σ,西格玛)
通过对方差开根号,使标准差的单位与计算数据的单位相同,方便比较
2)方差和标准差的意义:
方差和标准差小,表示数据比较集中,上下波动小
方差和标准差大,表示数据比较分散,上下波动大
由于标准差只能用于同一体系内的数据比较,如果要对不同体系的数据作比较,就要引入标准分概念。
标准分(z)
1)什么是标准分?
通过对数值进行标准化处理,可用来表述数值在所属的数据集内的相对排名。
2)标准分的用途:
a. 能够对不同体系的数据作比较,比较数值在各自的数据集中所占的位置
举例如下:
学生A的成绩标准分:
学生B的成绩标准分:
这两种计分方式可说是两种不同的体系,光比较他们的均值和标准分无法比较这两个学生的成绩。但是通过比较他们的标准分,学生A>学生B,我们可以知道学生A的表现要好于学生B。
b. 标准分表示某个数值距离均值若干个标准差,这个概念常用于产品的质量管理中,如6西格玛。