用SPSS Modeler-对电商的重购买家特征挖掘

一.任务理解

张三,护肤品及彩妆类卖家,几经打拼,信用积累到皇冠,但也累得半死,每日深陷护肤品行业的红海鏖战之中。感觉现在淘宝上的竞争越来越激烈,爆款可以带来销量,却带不来多少利润。促销、聚划算之类的活动做来做去,最后却发现钱都被开平台的马老板给挣走了。焦虑中的张三迫切想得到自家店铺的下面两点信息:

(1) 如果下次再做会员促销,究竟哪些是最有可能对促销信息作出反馈的会员?即他应当优先考虑对哪些会员进行促销?

(2) 和在本店铺无重购行为的买家相比,在本店铺有重购行为的买家具有怎样的特征?

(3)你可以为张三提供更多的有益分析结果。

二、数据理解(记录实验步骤、分析实验结果)

2.1、属性名含义理解

读入源数据sav文件后,以表格输出查看结果。如下图2.1-1和图2.1-2

用SPSS Modeler-对电商的重购买家特征挖掘

(交易表)图2.1-1

 

 

用SPSS Modeler-对电商的重购买家特征挖掘

(买家表)图2.1-2

 

交易表中共有7个基本字段,17517条记录,分别为

1. basket_id 表示买单号,连续型数据。

2. buyer_id 表示买家ID。

3. goods_id表示商品ID。

4. pur_time表示购买时间。

5. price是总价。

6. shipcost是运费。

7. cases是商品数。

 

买家表中共有7个基本字段,14635条记录,分别为

1. buyer_id是买家ID。

2. buy_gender是乘客父母与小孩个数,连续型数据。

3. buy_age是买家性别。

4. buy_prov是买家年龄。

5. buy_city是买家省份。

6. buy_cred是买家城市。

7. embarked是买家信用。

 

这两个表中,有一个共同的字段——buyer_ID,即买家ID。

2.2、数据分布和数据审核

 对两个表输出数据审核,可以很直观的看到数据审核的结果。如图2-2-1和2-2-2所示。

 

用SPSS Modeler-对电商的重购买家特征挖掘

(交易表数据审核)图2-2-2

 

用SPSS Modeler-对电商的重购买家特征挖掘

(买家表数据审核)图2-2-1

 

 

从上面的两张图中可以看到,交易表的数据审核显示出最早的一次购买时间为2011-03-01,最后一次购买时间为2011-05-31。商品价格最低为3,最高为3933,平均值142.930,标准差129.815,偏度5.047。运费最低为0,最高为10.602,平均0.153,标准差0.966,偏度7.804。一次购买数量最少1件,最多30件。而且7个字段的17517条记录都是有效记录。

从买家表的数据审核结果中可以看到,买家性别有16%的1号代表的性别和44%的2号代表的性别,但是有40%的买家并没有提供自己的性别。买家的年龄最小的为11岁,最大的为79岁,平均年龄28岁。买家的省份共有50个。买家信用有14个级别。但是,在买家表中,并不是每个字段都有14635个有效记录,可以说,除了买家ID以外,剩下的6个字段都各自有不同程度的数据缺失。

接下来,对数据分布进行观察。在实验报告中,仅对部分字段的数据分布进行展示。如图2-6、2-7、2-8、2-9所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-6一次购买商品数cases的数据分布

    在这个数据分布中可以看到,一次购买一件商品的比例达到95.93%,一次购买两件商品的比例为3.31%。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-7买家表中性别的数据分布

    在这个数据分布中可以看到,1代表的性别占比16.2%,2代表的性别占比44.33%,没有性别信息的占比39.47%。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-8买家表买家省份的数据分布

用SPSS Modeler-对电商的重购买家特征挖掘

图2-9买家表中买家信用数据分布

 

2.3 数据预处理

 在对买家表的数据审核进行观察时发现存在三个问题,(1)存在缺失数据和噪声数据。(2)“买家信用”目前的编码为字符串,无法表达出有序类型变量,因此需要进行变量值的重新编码。(3)“省份”变量值差距悬殊,低频省份可合并为其它。因此需要对买家表进行数据预处理,以便于进行下一步的工作。在图2-10中能看出买家年龄的离群值和极值,并可对它们进行处理,减少它们对数据分析的负面影响。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-10买家表中年龄字段的数据噪声

对于离群值,可以采取一些措施,减少它对数据分析的影响。比如可以直接丢弃。如图2-11所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-11丢弃离群值

对交易表做排序和汇总操作。如图2-12、2-13所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-12对交易表按照buyer_id进行排序操作及输出表

 

用SPSS Modeler-对电商的重购买家特征挖掘

图2-13对交易表中每个buyer_id汇总购买金额

接下来,对“买家信用”作类型变换操作,作此处理的原因是买家信用在原始数据中是字符型数据,并不是可以直接用来做数据分析的数字。所以要把它们转换成具体的数字代表。

在买家表字段选项里面选择类型,读取值,未能读取的值在流属性里面取消“名义字段的最大成员数”的勾选就可以读取了。如图2-14所示。

用SPSS Modeler-对电商的重购买家特征挖掘

 

图2-14买家表类型读取值

然后,根据卖家信用的信息,创建新的字段buy_cred2,并输入新值。在输入新值时,1-5星用户信用分别用1.1-1.5代替,1-5钻用户信用分别用2.1-2.5代替,1-5皇冠用户信用分别用3.1-3.5代替,无信用的,0信用的,信用等级<=3的全部用0来代替。在做此操作之后,就可以得到变换后的用户信用字段。分别如图2-15和2-16所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-15创建新的字段并输入新值

用SPSS Modeler-对电商的重购买家特征挖掘

图2-16变化后的用户信用等级。

 

接下来,要解决“省份”变量值差距悬殊这个问题。通过操作,将省份统计<=30的合并为“其他地区”并将0、缺失及未知的,统一为“未知”。要进行这个操作,首先,要对省份这个字段进行排序-汇总-排序的操作,等到需要进行处理的省份的名字。如图2-17所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-17找出低频省份

在找出低频省份之后,就要把低频省份合并到一起,合并为其他地区。并将0,缺失,未知的合并为未知。在字段选项里面选择重新分类并命名为低频省份分类,在里面读取buy_prov字段重新分类为buy_prov2字段。如图2-18所示。输出结果如图2-19所示。图2-20是合并低频省份后的数据审核。

用SPSS Modeler-对电商的重购买家特征挖掘

图2-18重新分类时给buy_prov2赋新值

用SPSS Modeler-对电商的重购买家特征挖掘

图2-19合并低频省份后的结果

用SPSS Modeler-对电商的重购买家特征挖掘

 

图2-20合并低频省份后的数据审核

 

在上述的数据预处理步骤都完成之后,因为本次试验是要根据交易表和买家表两张表共同进行分析,所以就有必要把两张表合并到一起成为一张表,后续的数据分析将在这一张合并后的表格上进行。将交易表和买家表进行合并操作,合并时选择关键词合并,使用两张表共同的字段buyer_id进行合并,并在合并时过滤掉3个已经没有意义的字段,分别是buy_prov、buy_city、buy_cred这三个字段。合并完成后,输出一个表格进行结果显示。这四步操作,分别如图2-21、2-22所示。

 

 

 

 

用SPSS Modeler-对电商的重购买家特征挖掘

用SPSS Modeler-对电商的重购买家特征挖掘

合并两张表

三、数据分析

3.1总体思路

首先,考虑到是要对重购用户的特征进行挖掘,就要先把重购用户分类出来。然后分别使用两个模型进行分析。之所以考虑用两个模型分别进行分析,是为了对比两个模型的预测结果,另一方面也可以侧面观察预测结果是不是可靠。

(一)使用C5.0模型对各个属性对重购次数的重要性进行分析。

(二)使用自动分类器对各个属性对重购次数的重要性进行分析。

3.2基于SPASS Modeler的数据分析过程

3.2.1 重构用户分类
  为了找到重购用户的特征,就要把重构用户与只购买过一次的用户分开,所以就要分类。首先是把购买次数字段的类型调整成名义型。因为作为目标变量,不能是连续型,只能调整为名义型的数据,如图3-1所示,分别是调整过程和调整过后的结果。

用SPSS Modeler-对电商的重购买家特征挖掘

图3-1调整购买次数为名义型
  购买次数调整为名义以后,在字段选项里面选择重新分类结点,在设置时,重新分类为现有字段,除了购买次数为1的新值仍然为1以外,其余所有的值新值改为2。调整的过程和结果如图3-2所示。

用SPSS Modeler-对电商的重购买家特征挖掘

图3-2重新分类购买次数
3.2.2 使用C5.0模型预测变量重要性
在建模里面选择C5.0结点,对前面输出过来的数据进行分析,得出各个属性对购买次数的影响的重要性,如图3-3所示。运行过后出来的结果如图3-4所示。再之后选择输出分析节点,如图3-5所示。

用SPSS Modeler-对电商的重购买家特征挖掘

3-3C5.0模型目标和输入字段

用SPSS Modeler-对电商的重购买家特征挖掘

3-4C5.0模型的结果

用SPSS Modeler-对电商的重购买家特征挖掘

3-5C5.0模型的结果分析

3.2.3 使用自动分类器
    在建模里面选择自动分类器,用来预测其他属性对重购次数的重要性,如图3-6所示。输出的模型结果如图3-7和图3-8所示,分别代表模型的两种不同显示方式。

用SPSS Modeler-对电商的重购买家特征挖掘

图3-6自动分类器

用SPSS Modeler-对电商的重购买家特征挖掘

图3-7自动分类器的模型结果

用SPSS Modeler-对电商的重购买家特征挖掘

图3-8自动分类器的模型结果之图形形式

用SPSS Modeler-对电商的重购买家特征挖掘

图3-9自动分类器的结果分析

在自动分类器的结果之后,还可以试探性的分析各个属性之间的关系,这次选用年龄和消费水平之间的关系,用多重散点图来表示,如图3-10所示。

用SPSS Modeler-对电商的重购买家特征挖掘

            图3-10年龄与消费水平的多重散点图
3.3 Spss Modeler中的完整数据流
  至此,本次试验的所有流已经完成了,下面本次试验的完整数据流,如图3-11所示

用SPSS Modeler-对电商的重购买家特征挖掘

四、结论及建议

4.1数据分析的结果

通过C5.0模型的决策树对重构用户进行分析,从分析结果中可以看到分类正确的有12599个,占比86.09%,正确率比较高。
而通过自动分类器进行分析,正确的有12542个,正确率85.7%,与前一个模型的正确率相差无几。

用SPSS Modeler-对电商的重购买家特征挖掘

图4-1C5.0模型和自动分类器的结果分析

4.2 通过分析得到的结论

买家年龄和平均消费金额对是否重购有很大的影响,可以根据平均消费来预测哪些用户会成为重构用户。对于可能重购的用户,平均消费金额是最重要的预测依据,根据平均消费金额来预测某个客户是否是重购客户是非常有效的。消费金额在(143-1005)、(1088-3320)范围内的客户,是重购客户的可能性非常大。

4.3对商家的建议

商家张三应该对预测出的可能会重购的用户推送一些广告和优惠活动,以便增加他们重构的可能性。另外,从年龄和消费水平的散点图中可以看出20-40岁这个年龄段的客户消费金额在我们预测出的可能重购客户的范围内,所以建议店家可以针对这个年龄段内的客户再给于更多的优惠,也可以给他们投放更多的广告。