excel数据分析案例——电信运营商用户流失分析
原文:https://zhuanlan.zhihu.com/p/55686050
本文为原文基础上的练习作
数据来源:https://www.kaggle.com/blastchar/telco-customer-churn
数据分析的基本步骤:
1、提出问题(有时,会在清洗完数据后,根据数据的描述性分析,再提出合理的问题。本数据集,即在清洗后,提出了问题)
2、理解数据列名,各个字段会出现的值的意义
3、数据清洗(缺失、内容错误、逻辑错误、不需要的数据)
4、数据分析(excel下,就是简单构建数据透视图,做一些描述性分析。更高级的话,应该应用一些数据挖掘的算法,本例中,就应当用分类算法,决策树、KNN等)
5、数据可视化及报告
一.提出问题/理解数据字段含义
该数据集为电信运营商流失数据表,含一些可能会对流失有影响的变量。希望通过分析,知道那些用户群最需要最先被采取干预措施;了解哪些变量,是对客户流失起着重要作用的变量;以及,试图做出预测,识别那个客户,最有可能是下一个流失的客户。
二.清洗数据
知乎网链接:https://zhuanlan.zhihu.com/p/20571505
三.提出问题
1、什么人群客户流失最多。
2、什么因变量,会对电信用户的流失会有影响。
四.数据分析
1.InternetService流失用户描述分析
运用数据透视表,将Churn,InternetService放入透视表并且生成一张圆环图表:
能发现,有约1/4的用户流失了。
接下来看再哪一个消费额度区间的流失量最大:
能发现,月充值在78.25~98.25之间的用户最易流失。但是,若是这个区间的用户量基数本身就是最大的呢?可以做一张各个区间保留和流失用户的占比:
能看出,78.25~98.25这个区域流失的用户的比重相较其他区间更易流失。通过这个图表能得出结论,需对这个区间内的客户进行干预,挽回。
摘自原文:
这里我们做出几个猜测:
a、可能流失的客户由于服务商提供了某个高消费的服务(宽带网络、电话服务等),但服务质量并不让用户满意,从而用户流失。
b、人群的本身属性(是否老人、是否配偶等),与用户流失呈相关。
c、提供服务时长对用户流失也会有影响(从用户侧考虑,使用越长,用其他产品替换本电信服务成本越高)。
2、流失用户因素推测
a、产品使用时长
可以看出,使用时长越长的用户流失率越低。
b.用户性别
由此可以看出来,用户性别对于流失率没有显著影响。
c.是否老年人
可以看出,流失率在年老人群、与非年老人群中可能存在显著差异(是否的确差异显著,还需要再做假设检验)。同样的方法,还可以再初步估计是否有配偶、有家属、是否订阅电话服务、是否有多重号码、是否接通宽带等服务,与流失情况之间的关系。
d、是否与某个宽带服务有关
这里是值得重点关注的:接入光纤(Fiber optic)的用户,接近4成的用户流失了。已经高于了全体用户的流失用户占比(26%)。
因而,我们可以猜测接入光纤(Fiber optic),与用户流失有相关。但至于是否是接入光纤就导致了用户流失,还应该探究更多的因变量。因为,可能某个因变量C,与接入光纤高度相关,但这个因变量C,才是导致用户流失的原因。