基于分类方法的银行客户流失预测
一、绪论
近年来,随着支付宝、微信等第三方支付平台的流行和经济体制改革的深化,银行同业间的竞争出现了恶化的趋势,客户流失率的与日俱增也使得银行机构的经营变得紧张。其次,在“互联网+”盛行的21世纪,互联网金融服务与金融产品犹如雨后春笋般层出不穷,加速了客户对银行机构的忠实度和依赖性的降低,如何处理客户流失问题俨然成了摆在各大银行面前的一大挑战。
本文在对某欧洲银行客户数据探索与预处理的基础上,利用决策树、关联规则、贝叶斯网络这三种分类技术建立数据挖掘模型,并通过对模型的解释和评估对比确定最佳模型。分析结果表明,三种模型对测试集的预测准确率较高,但决策树在该银行客户流失预测问题中的预测效果最准确稳定。论文重点在于利用分类挖掘技术对银行客户信息进行分析研究,深入、全面地挖掘客户的流失倾向,总结已流失客户和未流失客户的群体特征,并为该银行提供有针对性的建议,有助于银行对客户价值做出正确的判断,从而稳定存有客户,挽留潜在客户,发展新增客户,使银行在整体上提高效益,在激烈的同业竞争中发挥出最大的竞争优势。
(一)研究背景
随着市场竞争的加剧和银行规模经济效应的逐步下降,银行同业间的产品或服务差异越来越小,而对于银行来说,客户显然是最具有价值的资产和最大财富,越来越多的事实证明“以客户为中心”的银行往往能在市场中获得更大收益。
银行客户流失是指客户不再继续办理原业务或者终止参与该银行的业务。近年来,国内金融改革的深入及民营银行的进入加速了银行的客户流失和忠实度下降,各银行间的客户争夺战愈演愈烈。为了能在激烈的同业间竞争中取胜,各大银行纷纷采取措施调整本行的产品或服务,一方面着眼于夯实客户基础,通过发展新客户来提高已有客户的保有量,另一方面也越来越注重已有客户活跃度的提高和客户流失率的降低。从客户成本角度分析,挽留一个已有客户、提高已有客户活跃度的成本远低于吸引一个新增客户的成本,且堵住漏洞比盲目发展更加重要,因此做好客户流失管理工作是现今银行行业的工作重心。[1]
(二)研究意义
在客户导向的时代,未来银行行业的竞争势必紧紧围绕着客户,如何提高客户的忠实度、提升客户价值,进而衍生本行利益已经成为银行最关注的问题之一,同时也将成为衡量银行竞争力的重要指标。此外,当下各国银行业普遍应用了数据管理系统,但在分析数据信息方面存在不足,缺乏专业的知识手段和工具,往往造成数据浪费,因而难以利用数据发现潜在的流失客户。[2]
数据挖掘技术的诞生正是解决了缺乏信息分析专业工具这一难题。所谓数据挖掘,又称数据库中的知识发现,是指从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程,其应用领域十分广泛。在不断变化的市场需求和潜在进入者面前,数据挖掘技术可以根据企业需求为企业创建模型,帮助企业从大量的原始数据中抽取具有价值的商业信息,向企业直接提供知识。[3]
对于银行业,利用数据挖掘技术中的分类方法建立预测客户流失模型来支持决策是最直接且较为理性的选择。本文通过对客户流失数据的探索与预处理来建立基于三种分类方法的客户流失模型,根据结果分析该银行客户流失情况及特征,预测潜在客户行为,并为该银行提供客户挽留及关怀的建议。
二、数据描述
本文数据来源于superdatascience官网某欧洲银行的数据,源数据样本总量共10000条,每一条对应一个客户的统计信息。数据集包含14个变量,分别为“编号”、“客户ID”、“姓名”、“信用分”、“国家”、“性别”、“年龄”、“使用该银行产品时长”、“存贷款情况”、“使用产品数量”、“是否有信用卡”、“是否为活跃客户”、“收入估计”、“是否已流失”。
表 1源数据属性表
属性名 | 变量类型 | 属性名 | 变量类型 |
---|---|---|---|
编号 | 离散型 | 使用该银行产品时长 | 连续型 |
客户ID | 离散型 | 存贷款情况 | 连续型 |
姓名 | 离散型 | 使用产品数量 | 连续型 |
信用分 | 连续型 | 是否有本行信用卡 | 离散型 |
国家 | 离散型 | 是否活跃客户 | 离散型 |
性别 | 离散型 | 收入估计 | 连续型 |
年龄 | 连续型 | 是否已流失 | 离散型 |
由表1可知,属性表中共有6个连续型变量,8个离散型变量,其中“是否已流失”是本文研究的目标变量,其余均为预测变量。为了深入探索数据,本文结合EXCEL数据透视表功能对各变量进行了描述性统计分析。
(一)连续型变量分布情况
图1-6分别展示了本文6个连续型变量的频数分布情况。由图可知,客户信用分总体趋向于正态分布,在[650,700]区间达到峰值,鲜有客户的信用分低于400;客户年龄趋向于右偏分布,且该银行42-52岁的客户数量最多,64岁以上的客户数量较少。
从客户与该银行产品的关系来看,客户使用该银行产品的时长均匀分布在2-8年,约六成客户在该银行办理存贷款业务,且使用的银行产品数量均匀分布在1-2个,可见该银行的客户忠实度较高。但从峰值来看,使用该银行产品少于2年的客户数量最多,且存在约37%的客户未办理存贷款业务,由此可以推测该银行在新客户及存贷款业务办理方面的吸引力不够强,相关职能部门需要根据实际情况做出战略调整。
此外,根据客户的收入估计分布图显示,该银行接待的客户收入分布跨度较大且不均匀,不存在显著的收入区间,即客户群体不集中。
(二)离散型变量分布情况
图7-8分别展示了“国家”、“性别”、“是否有本行信用卡”、“是否活跃客户”这四个离散型变量分布与客户流失情况。从图可以看出,该银行的法国客户数量显著高于另外两个国家,且其客户流失率最低,但银行的德国客户和西班牙客户总数少于法国客户数,同时德国客户的流失率约是另外两国客户流失率的两倍,这可能是由文化差异导致的。综上,该银行在法国最受欢迎,但以长期发展的角度来看,银行不该只局限在此,而应当及时采取修正措施,抓住其他国家的客源。
从性别分布来看,该银行的男性客户数稍高于女性客户,但女性客户的流失率反而高于男性客户。此外,观察图9不难发现,拥有该银行信用卡的客户流失率远小于没有信用卡的流失率,但就目前来看,该银行拥有信用卡的客户较少,因此银行仍需要改进及宣传信用卡的办理业务。除了信用卡的持有对本行客户忠实度的影响很大,客户活跃程度的影响也相当重要。由图10可知,该银行的活跃客户与非活跃客户分布大体上是平均的,但活跃客户的流失率明显小于非活跃客户流失率。
(三)目标变量分布情况
通过描述性统计可知,在“是否已流失”变量中,样本总量为10000,其中已经流失的客户记录为2037条,未流失客户的记录为7963条。
三、数据预处理
(一)数据清洗
由于本文的样本数据完整,因此数据清洗操作主要包括剔除无关变量和异常值处理。
1.剔除无关变量
由图11部分源数据所示,可唯一标识的编号、用户ID和姓名均不具有研究意义,属于无关变量且应当剔除,但考虑到后续导入SQL Server时数据表主键的选择,本文只剔除用户ID和姓名。
图 11 部分源数据
2.异常值处理
由于样本数据量较大,故本文通过绘制连续型变量的箱线图判断是否存在异常值,如若存在,则根据变量的分布情况处理异常值。
从图12-17可以看出,“信用分”、“年龄”、“使用银行产品数量”这三个变量存在异常值。信用低于400分属于异常值,年龄大于60岁属于异常值,使用银行产品数量为4的也属于异常值。由于“信用分”、“年龄”、“使用银行产品数量”对研究客户的流失情况具有重要意义,且含有异常值的记录较少,因此本文对异常值不做任何处理。
(二)数据变换
1.数据离散化
与连续型变量相比,离散型变量的增加和减少不仅很容易实现,而且对异常值具有很强的容忍性,使得模型的迭代更加快速和稳定。鉴于此优势,本文对“信用分”、“年龄”、“存贷款情况”、“收入估计”进行数据离散化。以年龄为例,通过上文对年龄的描述性统计,将年龄划分为30岁以下、30-40岁、40-50岁、50-60岁、60-70岁、70-80岁、80-90岁、90岁以上这八组,并重新统计各分组样本数量。“信用分”、“存贷款情况”和“收入估计”的数据离散化操作与“年龄”变量近似,具体变量的数据离散化过程及结果如表2所示。
表 2数据离散化结果
属性名 | 数据离散化结果 |
---|---|
年龄 | ①[ 18, 30] 共 1968条 ;②[30,40 ] 共4778条; ③[ 40,50] 共2752条; ④[ 50,60] 共931条; ⑤[ 60,70] 共393条; ⑥[ 70,80] 共139条; ⑦[ 80,90] 共13条; ⑧ [90,100] 共2条。 |
信用分 | ①[ 350,600 ] 共3066条; ②[ 600,650 ] 共 1903条; ③ [ 650,700] 共 1984条; ④ [ 700,750] 共 1550条; ⑤ [ 750,+ ∞ ] 共 1623条。 |
存贷款情况 | ①没有存贷款,共3617条;②( 0,50000] 共75条; ③ [50000,100000] 共1509条;④ [100000,150000] 共3830条; ⑤ [150000,200000] 共935条;⑥ [200000,+ ∞]共35条。 |
收入估计 | ①[ 0,40000 ] 共1955条; ②[ 40000,80000 ] 共2033条; ③ [ 80000,120000] 共2028条; ④ [ 120000,160000] 共1989条; ⑤ [ 160000,+ ∞ ] 共1994条。 |
2.样本不平衡处理
从上文对目标变量分布情况的描述可知,已流失客户样本量与未流失客户样本量的比例约为1:4。在样本失衡的情况下,所创建的挖掘模型将耗费绝大多数时间和“精力”用于拟合约80%的未流失客户样本,然而从本文的研究目标和意义来看,检测出已流失客户的样本更加重要。考虑到过采样比欠采样的结果更为稳定,本文最终采用过采样方法进行类别平衡,通过随机复制不含有异常值的已流失客户样本量,扩大少数类样本的数据规模。过采样后的样本类别比为1:1,样本数据量为15926。
(三)特征选择
数据集成过程中需要避免冗余问题,当一个属性能由另一个或另一组属性“导出”时,即具有强相关性时,我们应当考虑剔除该属性。为了去除不相关和冗余的特征,提高数据质量及数据泛化能力,本文通过SPSS软件对12个预测变量进行斯皮尔曼相关系数分析,结果如图18所示。观察特征变量相关关系表可知,各变量之间的相关关系较弱,因此可以将这10个变量作为预测变量。[4]
图 18 特征变量相关关系表
四、数据挖掘方法及模型创建
(一)挖掘方法的选择
银行客户流失情况是一个典型的二分类问题,已流失客户的分类挖掘对银行来说更具有价值。所谓分类,是按照事先定义好的分类类别,按照某种规则或者标准对数据进行类别归类,其中的规则或者标准就是我们根据数据挖掘模型提取的分类规则,通过分析规则,我们可以实现对未知的样本的预测,判断它们属于哪一个类别。基于发现银行客户流失规则的挖掘目标,本文采用决策树、贝叶斯网络、关联规则这三种分类方法进行挖掘模型创建,原因如下:(1)决策树以类似流程图的数据挖掘方式展示规则,易于操作且省时省力,最重要的是该方法对样本不平衡问题不敏感;(2)贝叶斯网络预测样本的过程简单快速,对于类别类的预测特征变量效果良好,符合本文的研究情况;(3)关联规则对数据要求较低,可以产生清晰有用的挖掘结果。
(二)挖掘模型创建
本研究的目的在于发现银行客户流失的规则,在创建完“Bank”数据源视图后,开始创建挖掘结构。首先设置编号作为键、是否已流失作为可预测部分、其余属性均作为输入部分,其次,由于样本已经完成数据预处理,因此设置所有属性的内容类型为discrete(离散型),并选择30%用于模型的测试。挖掘模型包括决策树、贝叶斯网络、关联规则这三种。
五、数据挖掘过程及模型解释
(一)决策树
挖掘模型创建成功后,在不修改任一参数的情况下,模型的准确率为77.72%。为了提高模型预测的准确率,本文通过试错法不断比较不同成长参数下的模型拟合度,最终确定挖掘模型成长参数COMPLEXITY_PENALTY值0.7,此时模型预测概率为78.39%。此外,由于训练集中存在噪声或者孤立点,初始决策树的叶子节点呈现出复杂繁多的状态,因此需要通过剪枝来提高对未知类标号数据的分类准确性。
本文所采取的后剪枝方法,是在生成决策树之后对树进行剪枝,通过删除某些结点的分支,从而剪掉一些内部节点,更改叶结点必须包含的最小样本数量可以达到剪枝的目的。对于银行客户流失决策树模型而言,当叶结点的最小样本量MINIMUM_SUPPORT为100时,模型的预测概率达到82.03%,比初始决策树的预测概率高出3.64%。
1.决策树
由于决策树形状庞大,图19只展示了模型的2-7级别,从根到叶结点的一条路径对应着一条规则。节点中蓝条、红条分别表示此节点中的事例“未流失”、“已流失”的比例,全部节点共11149个事例,其中包含5601个未流失客户和5548个已流失客户。由于生成的决策树模型对应的规则较多,本文只从模型中选取置信度超过85%的规则并加以解释,规则描述如下:
表 3 决策树规则表
序号 | 规则内容 |
---|---|
1 | 使用产品数量 =2 and 存贷款情况=0 and 性别=‘Male’ 的未流失客户支持度为 1 015/ 11149= 9.1 0 % ,置信度 1015/1089= 93.2%。 |
2 | 使用产品数量 =2 and 存贷款情况=0 and 性别不等于’Male’ and 年龄不等于3 (40-50岁)的未流失客户支持度为654/11149= 5.87% ,置信度654/759=86.15%。 |
3 | 使用产品数量 = 1 and 年龄=4 and 是否活跃客户=0 的已流失客户支持度为601/11149= 5.39% ,置信度为601/621=96.77%。 |
4 | 使用产品数量 =1 and 年龄不等于4 and 年龄不等于3 and 是否活跃客户=1 and 国家不等于’Germany’ and 存贷款情况= 3 的未流失客户支持度为409/11149= 3.67% ,置信度为409/472=86.65%。 |
5 | 使用产品数量 =1 and 年龄=3 and 国家=‘Germany’ 的已流失客户支持度为695/11149= 6.23% ,置信度为695/788=88.19%。 |
6 | 使用产品数量 不等于2 and 使用产品数量不等于1 的已流失客户支持度为671/11149= 6.02% ,置信度为671/698=95.51%。 |
7 | 使用产品数量 不等于2 and 使用产品数量不等于1 and 存贷款情况不等于0 的已流失客户支持度为475/11149= 4.26%, 置信度为475/478=98.54% 。 |
8 | 当规则7中的 性别=‘Female’ 时,已流失客户支持度为268/11149=2.40%,置信度为268/270=98.87%。 |
9 | 当规则7中的性别为 =‘Male’ 时,已流失客户的支持度为207/11149 = 1.86 % ,置信度为207/208=98.87% 。 |
图 19 决策树2~7级别
从上述9条典型规则的置信度来看,使用两个银行产品且没有存贷款的客户对本银行的忠实度很高,很少出现与本行终止业务合作的情况。而在只使用一个银行产品的客户群体中,当出现非活跃客户的年龄在50-60岁时,其流失率高达96.77%;当出现年龄不是50-60岁、存贷款在[50000,100000]区间内且不是德国人的活跃客户时,有86.65%的可能性会忠诚于本银行;当出现40-50岁的德国客户时,他放弃本银行产品或服务的概率是88.19%。此外,使用银行产品数量为三个或四个的客户群体需要引起银行的重视,该群体的客户流失率都超过95%,尤其是拥有存贷款情况的客户,其流失率高达98.87%。
从支持度的角度来看,上述规则的支持度都不超过10%,可见与规则内容完全吻合的客户群体较少。其次,在11149个事例中,使用一个银行产品且年龄不是50-60岁的已流失客户群体最为庞大,支持度高达27.01%,且其它规则的支持度远低于该客户群体。
综上所述,当客户所拥有的银行产品过多或过少时,会抑制本银行在客户流失率降低方面的努力,因此银行在借助客户流失模型制定修正方案时,两手都要抓,既要关注置信度高的规则,也要关注支持度高的规则。
2.依赖关系网络
依赖关系网络显示了模型中输入属性和可预测属性“是否已流失”之间的依赖关系。从图可知,在10个输入属性中,银行客户流失情况的依赖属性包括“性别”、“是否活跃客户”、“年龄”、“使用产品数量”、“存贷款情况”、“国家”这6个属性,其中“使用产品数量”与客户流失情况的依赖关系最强。因而要求银行在日后的经营活动中加大对存有客户的银行产品使用量的关注,努力优化现有产品的质量及发展具有时代性的新产品或服务。
图 20 决策树依赖关系所有链接
图 21 决策树依赖关系最强链接
(二)贝叶斯网络
1.依赖关系网络
由于贝叶斯网络和决策树在依赖关系网络方面的结果一致,因此本文只对贝叶斯网络模型中的属性特征和属性对比加以解释。
图 22 贝叶斯依赖关系所有链接
图 23 贝叶斯依赖关系最强链接
2.属性特征
根据研究背景及意义可了解到,已流失客户的特征对银行的实际参考价值更高,因而本文只选取并着重研究客户流失时贝叶斯网络模型各属性的特征。从表4可以发现如下规则:(1)只使用一个产品的客户流失率最高,使用四个产品的客户流失率最低;(2)女性客户和非活跃客户往往更容易流失;(3)存贷款数额的高低总体上对客户流失率有重要影响,但过高或过低的存贷款数额对流失率的影响很小;(4)不同国家的客户对银行的忠诚度整体影响差异不大;(5)除了40-50岁年龄段的客户流失率较大之外,其余年龄段的客户对银行的客户保有量没有太大的影响。
表 4 客户已流失的属性特征表
属性 | 值 | 概率 | 属性 | 值 | 概率 |
---|---|---|---|---|---|
使用产品数量 | 1 | 70.73% | 年龄 | 4 | 22.59% |
是否活跃客户 | 0 | 64.58% | 国家 | Spain | 20.44% |
性别 | Female | 55.41% | 使用产品数量 | 2 | 17.18% |
存贷款情况 | 3 | 47.98% | 存贷款情况 | 2 | 14.55% |
性别 | Male | 44.59% | 使用产品数量 | 3 | 11.27% |
年龄 | 3 | 40.47% | 存贷款情况 | 4 | 10.60% |
国家 | Germany | 39.82% | 年龄 | 1 | 7.79% |
国家 | France | 39.74% | 年龄 | 5 | 1.44% |
是否活跃客户 | 1 | 35.42% | 存贷款情况 | 1 | 1.24% |
年龄 | 2 | 27.56% | 存贷款情况 | 5 | 1.03% |
存贷款情况 | 0 | 24.60% | 使用产品数量 | 4 | 0.83% |
3.属性对比
从对比分数图可以看出,除了使用2个产品的客户,其余持有银行产品的客户都倾向于流失状态,而40-60岁年龄段的客户同样也更倾向于离开本银行。其次,存贷款情况的反倾向说明本银行的存贷款业务对客户的吸引力不足,相关职能部门仍需要努力提升业务服务。从国家属性来看,只有德国客户倾向于流失状态,且发生概率远高于另外两个国家,这就需要银行采取回访客户等形式对德国客户群体进行深入分析研究,针对问题挽留和关怀客户。
图 24 “是否已流失”属性的对比分数
(三)关联规则
1.依赖关系网络
图 25未流失客户的最强链接
图 26已流失客户的最强链接
由于关联规则的依赖网络十分复杂且庞大,在此只分析可预测属性的最强链接,如上图所示。从图可知,使用两个产品的客户与为未流失状态的依赖关系最强,与贝叶斯网络的属性对比结果一致,而使用三个产品的客户最强依赖于流失状态,这说明该银行存在性价比不高或客户体验较差的产品,当客户有意选购多种银行产品时,未能满足其需求的产品将大概率迫使客户停止与本银行的业务合作。对此,银行需要加大对产品的关注力度,利用收集的大数据分析银行产品的客户流失率,尤其是客户流失率最高和最低的产品,挖掘产品为客户提供的服务和利益特点,并将获取到的有效信息合理地应用到原有产品或新增产品上。
2.规则
为了方便挖掘模型结果的评估比较,分别设置关联规则模型的最小概率(置信度)为0.85、最低重要性(支持度)为0.3,得到如表5所示的十条规则。
表 5 关联规则表
概率 | 重要性 | 规则 |
---|---|---|
0.883 | 0.326 | 存贷款情况 = 0, 使用产品数量 = 2 -> 是否已流失 = 0 |
0.961 | 0.3 20 | 年龄 = 4, 是否活跃客户 = 0 -> 是否已流失 = 1 |
0.996 | 0.31 1 | 使用产品数量 = 3, 存贷款情况 = 3 -> 是否已流失 = 1 |
0.959 | 0.3 10 | 使用产品数量 = 3 -> 是否已流失 = 1 |
0.981 | 0.30 9 | 使用产品数量 = 3, 性别 = Female -> 是否已流失 = 1 |
0.985 | 0.30 6 | 使用产品数量 = 3, 年龄 = 3 -> 是否已流失 = 1 |
1.000 | 0.30 6 | 使用产品数量 = 3, 年龄 = 4 -> 是否已流失 = 1 |
0.988 | 0.305 | 使用产品数量 = 3, 国家 = Germany -> 是否已流失 = 1 |
0.971 | 0.304 | 使用产品数量 = 3, 是否活跃客户 = 0 -> 是否已流失 = 1 |
0.960 | 0.302 | 使用产品数量 = 3, 是否有本行信用卡 = 1 -> 是否已流失 = 1 |
分析表5可知,上述规则均同时大于最小概率和最低重要性,属于模型的强关联规则。对于使用三个产品的客户而言,无论其他属性的特征如何,这类群体总是存在极大的流失可能性,这就要求银行完善该客户群体的产品或服务反馈机制,在他们提供的建议基础上更新产品。此外,40-60岁的客户群体对本银行的忠实度较低,相关职能部门可以通过结合现实因素和本行特色为该群体制定个性化服务,并做好挽留举措。
六、挖掘模型评估
对于客户流失这种二分类问题,流失客户的总体样本量较小,所以本文选择查全率、查准率和F-measure对三种分类方法所构造的模型进行评估比较。在4777个测试样本中,贝叶斯网络模型的查全率最高,决策树模型的查准率最高,但考虑到过度追求查准率会导致查全率的降低,故只利用F-measure值选择最佳模型。依据表5的结果可知,决策树的表现最好,关联规则次之,而贝叶斯网络的表现最差。
表 6 模型评估准则表
查全率 R recall | 查准率 P precision | F-measure | |
---|---|---|---|
决策树 | 77.25% | 75.65% | 76.44% |
贝叶斯网络 | 79.73% | 70.19% | 74.66% |
关联规则 | 75.72% | 75.03% | 75.37% |
此外,从数据挖掘提升图可以了解到,这三种模型的提升图轨迹十分相近,且与理想模型的轨迹距离不大。图中当前度量位置位于总体50%,此处理想模型的总体正确率是50%(预测完全正确),决策树为44.30%,关联规则为42.73%,贝叶斯网络为43.81%。当度量位置移动到100%时,决策树为79.28%,关联规则为82.24%,贝叶斯网络为78.93%。上述说明三种模型都具有较高的参考价值,可以将其应用到银行客户流失的实际问题中。 图 27 数据挖掘提升图
七、挖掘结果解释与应用
在经过对三种不同分类方法建立的客户流失模型进行评估之后,对比分析评估结果就能确定最佳模型。决策树和关联规则模型输出结果主要是对决策规则的解释,而贝叶斯网络模型输出结果主要用于解释某特征群体的流失倾向。因此,在模型的实际应用过程中,相关人员还需要结合现实因素对最佳模型的输出结果进行解释。
应用是数据挖掘的延伸。利用数据挖掘技术对银行客户的历史行为数据进行探索和分析,挖掘出客户流失的行为模式,并将这一模式运用于预测潜在客户的流失状态。当某客户的行为与流失客户群体普遍具有的特征匹配度越高时,表明该客户越容易流失。在做完客户的流失行为预测工作之后,银行便可以依据结果开展多种客户关怀、挽留举措以期降低客户流失率,在稳步发展中增强自身的市场竞争优势。[5]
八、结论
在信息化时代,银行若想在日益激励的市场竞争中取胜,其建立的数据仓库就不应当再成为“数据坟墓”,对数据的充分利用要求各职能部门改变原有的思维方式,并掌握基于数据仓库中信息丰富的数据的决策方法。
基于决策树、贝叶斯网络、关联规则这三种分类挖掘技术,本文解释并评估了所建立的银行客户流失模型,得出以下结论:
(1)使用银行产品的数量是判别该客户在未来一段时间内是否会流失的最重要因素。银行不仅需要做好产品维护工作,还要关注客户对产品使用的满意度。对于使用产品数量较多的客户,银行可以采用感恩回馈、优先服务等方式令客户感受到银行对自身的重视;而对于使用产品数量较少的客户,银行可以抓住当季社会热点与其他商家进行合作,推出联名产品或打折活动,同时通过提供个性化服务等吸引客户加大对本行产品的客户,激励其成为活跃客户。
(2)年龄是影响预测客户流失的另一重要因素。综合年龄频数分布及模型结果得知,该银行客户的年龄分布不均匀,最大的客户群体为40-60岁,且该群体的客户往往倾向于流失状态。这说明银行没有重视对不同年龄段客户的定位,没有深入了解本银行客户年龄层的需求。对此,银行应当尽快进行目标客户定位,细分广大客户并制定针对性的策略,为目标客户提供更加精准有益的产品或服务,在人口老龄化的时代背景下抢先抓住中老年客户群体,提高存有客户的保有量。
(3)存贷款作为银行的主要业务,其重要性不言而喻,但就基于该银行样本所构建的数据模型结果来看,办理存贷款业务的客户并没有表现出对该银行更高的忠诚度,相反,没有办理存贷款业务的客户流失率较低。这表明该银行的存贷款收益对客户的吸引力不强,在同等收益的条件下,客户更愿意选择其他低成本的银行办理存贷款业务。面对获取资金支持渠道多元化及同业间竞争愈演愈烈的现象,银行不仅需要分析自身存贷款业务弱势的原因,还应当实时关注外部环境的变化,在保留本银行服务特色的基础上,结合内外部环境分析结果,对存贷款业务进行优化,以吸引客户办理存贷款或提高存贷款金额。
综上所述,对处于同质化现象严重的银行业来说,主动防范客户流失俨然已成为日常经营活动的重中之重,如何挖掘关键信息的内涵也成为银行从业人员需要学习的技能之一。银行能够识别潜在的流失客户,不仅意味着能够减少维系客户的成本,还意味着增加了客户与组织保持关系更持久的可能性。其次,由于客户的储蓄行为可能随着时间而演变或对银行服务市场的事件敏感,为了得到更优的预测效果,银行需要不断更新或重新发现客户流失预测模型。[6]最后,银行的稳步发展得益于优质客户的支持,为了能更精准地制定关怀挽留方案,银行还需要区分客户的优质程度,稳定现有优质客户,挽留潜在流失的客户,做到有的放矢,从而实现存有客户保有量的可持续增长。
参考文献
[1]任红娟,夏国恩.客户流失研究综述[J].中国商论,2018(32):166-167.
[2]高海燕.基于数据挖掘的银行客户流失预测研究[D].西安理工大学,2007.
[3]陈志泊.数据仓库与数据挖掘[M].北京:清华大学出版社,2017.
[4]王振武,徐慧.数据挖掘算法原理与实现[M].北京:清华大学出版社,2015.
[5]柳婷.基于数据挖掘的银行客户流失模型分析研究[D].重庆大学,2008.
[6]蒙肖莲,蔡淑琴,杜宽旗,寇建亭.商业银行客户流失预测模型研究[J].系统工程,2004(12):67-71.