淘宝&天猫婴儿商品分析
一、分析背景和目的
随着建国后第三次婴儿潮(1985-1997年)出生人口进入育龄,同时叠加二胎政策影响,我国正在迎来新的人口出生小高峰。同时,收入增长带来消费能力提升和消费观念转变,育儿模式更加精细化。新的母婴消费观念和消费方式正在扩展。在母婴用品需求大、消费转型的大背景下,电商是否能够顺应潮流、抓住发展机遇、在发展自身的同时为广大母婴产品消费者提供商品服务?
本文通过查看运营数据,对店铺运营进行数据分析,从而把握市场规律,为商品营销和商品结构调整提供数据支持,提升店铺运营业绩。
二、 分析思路
具体包括以下几个问题:
-
哪种商品的购买量最高?
-
性别对购买量有什么影响?
-
用户年龄对购买量有什么影响?
-
购买量随时间如何波动?
-
复购率是多少?用户最爱复购的商品是什么?
从业务运营指标以及用户群体两大方面分析。具体分析思路如下:
三、分析内容
1. 数据集字段含义
本文数据集来自阿里巴巴天池Baby Goods Info Data-数据集,主要收集在淘宝和天猫上购买婴儿的用户信息及购买商品信息,数据集包含两个Excel文档。数据字段如下:
表1包括淘宝用户的历史交易信息。字段信息如下(数据:7列29972行):
user_id:用户id, 为用户的唯一的标识。
auction_id:购买行为编号。
cat_id:商品种类id,每一个商品有一个id。
cat1:商品大类,用来区别用户购买的商品大类。
property:属性,是对商品特征的详细描述。
buy_mount:购买数量。用户购买的商品数量。
day:时间戳,代表用户购买商品当天的年月日信息。
表2记录的超过9百条儿童信息,包括他们的生日和性别。字段信息理解如下(数据:3列954行):
user_id:用户id。
birthday:生日。显示宝宝出生的日期,以年月日的形式呈现。 gender:性别。0代表女孩,1代表男孩,2代表性别信息不清楚。
2. 数据清洗
(1) 删除重复值
表1够买商品中查询user_id,发现重复值,删除重复值
表2婴儿信息中查询user_id,未发现重复值
(2)处理缺失值
缺失值会很影响分析结果。如果某一字段数据缺失比例过大,分析结果就不准确,需要考虑填充数据或删除数据或作其他措施。如果某一字段是关键字段且缺失值比例大,则需要采取措施填补缺失值,或采取其他措施减少缺失值对分析结果的影响。
通过定位空值查询表1、表2, 表1中property存在143条缺失值,表2中无缺失值。
(3) 重命名列名
将列名重命名为中文,方便使用。
(4)隐藏子集
隐藏商品属性、购买行为编号两列。
(5) 一致性处理
用数据-分列将表1中购买日期和表2中出生日期统一修改为日期格式。
在表1中添加出生日期和性别两列,使用 Vlookup 函数在表2中查找用户ID,将表2中的出生日期和性别关联到表1中。
用购买日期-出生日期算出婴儿年龄,具体公式:round((购买日期-出生日)/365, 1)。 最终处理结果如下图:
(6) 异常值处理
筛选年龄列,发现有-2.1、-1.8、-1.7、-1.6、28.3等这几个值。-2.1、-1.8、-1.7、-1.6为婴儿出生前两年或一年半,与考虑是婴儿父母提前购买商品,因此将小于零的年龄全部替换为0岁。至于28.3应该是填错了信息,需删除。
将性别列0-1-2分别替换为男-女-未知
筛选购买数量列,发现也有100以上的数据,考虑为异常值。普通人很少一有如此大的购买量,把100以上的数据替换为1。
(7) 将年龄分组
将年龄分为以下几组,使用vlookup模糊匹配:
最终清洗数据如下:
数据清洗部分完成。
3 构建模型及数据分析
(1) 购买量最高的商品
如图所示,最受欢迎的商品类别是28,其次是50014815和50008168。其余三款商品的销量都很低迷,需要和产品部门沟通是哪三类产品。产量低的原因是要和行业数据、产品数据以及收集到的竞品的数据去比对,研究是哪一种原因导致销量低迷。
(2) 婴儿性别对购买量的影响
从图中可以看出,根据提供的性别数据统计,男婴购买量为559,女婴购买量为7755。女男婴的购买需求强于女男婴。
不同大类的上瓶,男女的购买数量也不一样。
如图,50022520类商品,男婴的购买量超过女婴,122650008类商品,男女购买量持平。
其他4类商品的女婴购买量均多余男婴购买量。需注意:38类商品,女婴的购买量是男婴的两倍多;50014815类,女婴够买量是男婴的1.5倍,这两类商品性别偏差明显,女婴是购买主力。在进行宣传和促销方面,可以做针对性较强的推广,主打女婴。
50008168和28类,男婴够买量和女婴购买量差距不大,而且购买量都在100以上,这两类商品性别偏差不大,且比较受欢迎。在进行宣传和推广时,可以不突出性别偏差,而突出商品属性和功能。
(3) 用户年龄对购买量的影响
商品用户画像如图所示,基本趋势为:随着年龄大,购买量减少。未出生到一岁半的宝宝是购买主力。
0
0-1岁的婴儿的购买量最大,超过500。其次为1-3岁的婴儿,购买量将近500百。出生到一岁半的婴儿为购买主力。
从上图可以看出,50014815类商品的购买量最大。其次是50008168和28。因此,对于这三类商品源,需准备充分。
(4) 时间对购买量的影响
如图所见2014年的购买量为最高,超过4万多件。而2012和2015年的销售量不足1万。是什么原因导致差别如此之大?来看一下更加细分的数据透视图。
这张图片可以解释为什么2012年和2015年的购买量这么低。本数据是从2012/7/2-2015/2/6。所以2012年的数据只包含3、4季度的,2015年的数据只包含1月份-2月的,所以2012和2015年的购买量的数据是不完整的,不能直接和2013及2014年的全年购买量进行比较,也无法看出购买量趋势。
根据季度购买量透视图,可以看出2012-2014年的总体购买趋势为持续上升。2015的数据只有1月-2月,所以暂不考虑进去。图中的购买量高峰出现在2012年第4季、2013年第4季、2014年第2季和第4季;而购买量低谷出现在2013年第1季、2014年第1季和2014年第3季。
结合每月购买量透视图,趋势线将高峰和低谷划分的更加清晰。图中的高峰出现趋势线以上,分别为2012年11月、2013年11月、及2014年11月;而低谷出现在趋势线下方,分别是:2013年2月、2014年1月和2014年6月。
为什么会出现这样的波动?日期对购买量有何影响?
这里先做一个假设:春节、促销日对购买量有影响。
首先来验证一下高峰。高峰出现在11月,猜测双11活动会带来销量高峰。用数据来验证一下
每日购买量透视图中,可见每年双11、双12购买量都会达到一个高峰。
双11、双12是淘宝天猫一年一度的重要促销日。因此,数据验证了刚才的假设:双11、双12是形成每年11月、12月购买高峰的关键原因。
2013-2014,每一年的最高点均出现在11月份,接着是12月—仅次于11月,而另一高峰点是每年的5月份;最低点均出现在2月份;
订单量排序:11月>5月>2月
(5) 复购率情况
用户ID是指用户身份,为唯一的用户标识。查看用户ID是否有重复,就可以知道复购的用户数量。
将用户ID作为行标签,计数项:用户ID作为值,构建数据透视图并降序排列。如果值大于1就说明该用户为复购用户。
由上图得出以下结论:
重复购买的用户只有52个人,经过计算得到总购买人数有29971人,复购率:25/29971,复购率极低。绝大部分用户都只产生一次购买后便不再重复购买。用户粘性极低。需要和产品部门和售后部门沟通,明确销售的商品是否符合用户的需求,为什么用户只购买一次后就不再购买?对复购率极低的原因做深入研究。
四、 结论与建议
最受欢迎的商品类别是28,其次是50008168和50014815;这三类商品作为主打商品主推。
50022520类商品,男婴的购买量超过女婴,考虑主打男婴;
38类和50014815类,女婴是购买主力。在进行宣传和促销方面,考虑主打女男婴。
50008168和28类,性别偏差不大,且比较受欢迎。在进行宣传和推广时,可以不突出性别偏差,而突出商品属性和功能。
0至1岁的宝宝是购买主力,可以考虑将0-1岁的婴儿商品作为主打。
在0-3岁半的婴儿用品中,50014815类商品的购买量最大。其次是50008168和28,这几类商品源需准备充足。
对于一岁到一岁半的宝宝,38类商品也比较受欢迎,考虑按一定比例分配商品源。
每年双11、双12活动会形成购买量高峰,建议准备充分商品源,为每年的销售量创新高;每年5月份的母亲节、520母乳喂养宣传日等促销活动也是亮点,并且销售量快赶上双11活动,可以考虑加大促销力度,形成上半年的销售高峰。
复购率极低,用户黏性极低,考虑跟产品部门沟通,查明原因,做出优化和调整。