Airbnb 数据分析
一、背景
Airbnb(爱彼迎)是一个旅游房屋租赁平台,被称为是住房中的ebay或者说是闲鱼。
它整体的商业逻辑其实共享经济的一部分,同样是将个人闲置的资源进行出租,提高闲置资源的利用率,达到利益最大化。
目前,airbnb已经在全球191个国家,65000多个城市中提供住房服务,是一个世界级的品牌。但是是否还有改善的空间呢。
二、分析目的
提出问题:
1、 airbnb的用户具有怎样的特征
2、 Airbnb推广渠道的差别,占比和转化率的不同,是否有调整空间
3、 转化率该如何得到改善,减少用户的流失。
三、数据集概览
数据来源地址: https://link.zhihu.com/?target=https%3A//www.kaggle.com/
c/airbnb-recruiting-new-user-bookings/data
数据集名称: airbnb-recruiting-new-user-bookings(airbnb新用户预订数据)
数据集大小:session.csv(14W*6),train_user.csv(21W*16)
字段理解:
train_user_2
id
id编号
date_account_created
账号创建日期
timestamp_first_active
逗留时间
date_first_booking
首次预订时间
gender
性别
age
年龄
signup_method
注册方式
signup_flow
用户注册页面
language
语言偏好
affiliate_channel
营销方式
affiliate_provider
营销来源
first_affiliate_tracked
注册之前,用户交互的第一个营销广告
signup_app
注册APP来源
first_device_type
设备类型
first_browser
浏览器类型
country_destination
目标国家
seesions
user_id
用户id
action
用户行为埋点
action_type
用户行为类型
action_detail
用户行为描述
device_type
此次对话的设备类型
四、数据清洗
缺失值
Train_user表
1、首次预订时间(date_first_booking)缺失值数量:124543
2、年龄(age)缺失值数量:87990
3、注册前用户交互的第一个营销广告(first_affiliate_tracked)缺失值数量:6065
Session表:
1、用户id(user_id)缺失值数量:3563
2、用户行为埋点(action)缺失值数量:10834
3、用户行为类型(action_type)缺失值数量:192193
4、用户行为描述(action_detail)缺失值数量:192193
MySQL的缺失值统计查询程序:
SELECT
SUM(case when id IS NULL then 1 ELSE 0 END) AS "id",
SUM(case when date_account_created IS NULL then 1 ELSE 0 END) AS"date_account_created",
SUM(case when timestamp_first_active IS NULL then 1 ELSE 0 END) AS"timestamp_first_active",
SUM(case when date_first_booking IS NULL then 1 ELSE 0 END) AS "date_first_bookingd",
SUM(case when gender IS NULL then 1 ELSE 0 END) AS "gender",
SUM(case when age IS NULL then 1 ELSE 0 END) AS "age",
SUM(case when signup_method IS NULL then 1 ELSE 0 END) AS "signup_method",
SUM(case when signup_flow IS NULL then 1 ELSE 0 END) AS "signup_flow",
SUM(case when `language` IS NULL then 1 ELSE 0 END) AS "language",
SUM(case when affiliate_channel IS NULL then 1 ELSE 0 END) AS "affiliate_channel",
SUM(case when affiliate_provider IS NULL then 1 ELSE 0 END) AS "affiliate_provider",
SUM(case when first_affiliate_tracked IS NULL then 1 ELSE 0 END) AS"first_affiliate_tracked",
SUM(case when signup_app IS NULL then 1 ELSE 0 END) AS "signup_app",
SUM(case when first_device_type IS NULL then 1 ELSE 0 END) AS "first_device_type",
SUM(case when first_browser IS NULL then 1 ELSE 0 END) AS "first_browser",
SUM(case when country_destination IS NULL then 1 ELSE 0 END) AS "country_destination"
FROM train
SELECT
SUM(case when user_id="" then 1 ELSE 0 END) AS "user_id",
SUM(case when `action`="" then 1 ELSE 0 END) AS "action",
SUM(case when action_type="" then 1 ELSE 0 END) AS "action_type",
SUM(case when action_detail="" then 1 ELSE 0 END) AS "action_detail",
SUM(case when device_type="" then 1 ELSE 0 END) AS "device_type",
SUM(case when secs_elapsed="" then 1 ELSE 0 END) AS "secs_elapsed"
FROM session
处理:
1、 年龄的缺失值填充为平均年龄
2、 删除Session表中的用户id(user_id)缺失值所在行
异常值
1、年龄(age)有70273条记录年龄大于80小于 10岁
2、有26条账号创建日期(date_account_created)大于首次预订时间(date_first_booking)的记录
处理:
1、 将70273条年龄异常值更改为年龄平均值37岁
2、删除26条记录账号创建日期(date_account_created)大于首次预订时间(date_first_booking)的记录
重复值
没有重复值
四、用户画像
1、性别分布
从图中可以看出,女性用户占比53.17%,男性用户占比46.83%,两者相差不明显。
2、 年龄占比
可以看出,用户大多集中在25到39岁之间,但分布情况并不极端,在更高的年龄上呈现一个比较平缓的分布曲线,20到69岁之间的人群都是比较显著存在的。
3、 终端分析
在PC端,mac系列终端的用户和window终端的用户都比较多,mac的用户相对多一些;在手机端方面,苹果移动终端的用户显著比安卓移动终端的用户更多。
4、浏览器分布
在浏览器用户占比方面,Chrome、Safari、Firefox、IE、Mobile Safari这五种浏览器占到的90%以上。
5、目的地分布
从图上可以看出,airbnb用户的目的地国家大多选择美国,然后是欧洲和北美其他国家,极少选择非西方世界的发展中国家。
五、推广渠道分析
1、 渠道分析
从图中可以看出,direct(直接Airbnb app注册)渠道的注册量是超过半数的,绝对领先。前5个渠道的注册量占整体注册量的90%以上。但是,这部分分析是分析各渠道的数据,所以在接下来的分析中将提出direct渠道。
2、渠道质量分析
从渠道的转化率柱状图中可以看出,airbnb整体的转化率都比较高。在0.38左右,转化率排名前3的渠道是:sem-non-brand-dumn、sem-brand-baidu、sem-brand-other 都是平拍竞价注册。
3、渠道结构分析
从图看出,活跃率较高的前3个渠道分别是:sem-non-brand-yandex、sem_brand-naver、sem-brand-yandex ,也都是平拍竞价的注册方式。
4、渠道趋势分析--新增注册用户数
从趋势图中可以看出,新增的用户数在2010年第一季度到2012年第一季度之间都是比较平缓的上升,到了2012年第二季度开始,新增用户的增长率就提高了不少,强势抬升。而且且可以看出,在每年的第四季度,都会迎来一次小低谷,预计是冬季是旅游淡季的缘由。
5、渠道趋势分析--转化率
相对于新增用户的高歌猛进,用户转化率的趋势却随着时间逐渐向下波动,尤其是2011年7到9月份之间,有一段比较剧烈的转化率的下坠。一方面可能受营销的影响:新增用户增多,但是刚需客户相对增长的较少;一方面可能受竞争对手的影响,夺走了一部分的优质客源。
6、渠道对比分析
从图中可以看出,sem-brand-google的增长是最高的,而api-other这个渠道却在2014年第一季度出现的滑坡。
六、用户行为转化率
MySQL的各种类用户数统计查询程序:
#总访问数
SELECT COUNT(DISTINCT user_id) AS 访问用户 FROM session
UNION
#注册用户
SELECT COUNT(*) AS 注册用户 FROM train_user t1
INNER JOIN(SELECT user_id FROM session GROUP BY user_id) t2 ON t1.id=t2.user_id
UNION
#总预定用户
select COUNT(t3.user_id) AS 预定用户 FROM
(SELECT user_id FROM session where action_detail="reservations" GROUP BY user_id)t3
UNION
#总支付用户
select COUNT(t4.user_id) FROM
(SELECT user_id FROM session where action_detail="payment_instruments" GROUP BYuser_id)t4
UNION
#总复购客户
select COUNT(t5.user_id) FROM
(SELECT user_id FROM session where action_detail="reservations" GROUP BY user_idHAVING
COUNT(user_id)>=2)t5
从图中可以看出,用户的整体转化率只有1.7%。在注册用户到预定用户的环节转化率最低,只有10.25%。访问到注册次之,也只有31.73%,用户流失严重。复购环节最为良好,环节转化率达到了81.07%。
总结
1、女性用户占比53.17%,男性用户占比46.83%
2、用户大多集中在25到39岁之间,但分布情况并不极端,在更高的年龄上呈现一个比较平缓的分布曲线,20到69岁之间的人群都是比较显著存在的。
3、在PC端,mac系列终端的用户和window终端的用户都比较多,mac的用户相对多一些;在手机端方面,苹果移动终端的用户显著比安卓移动终端的用户更多。
4
、在浏览器用户占比方面,Chrome、Safari、Firefox、IE、Mobile Safari这五种浏览器占到的90%以上
5、从图上可以看出,airbnb用户的目的地国家大多选择美国,然后是欧洲和北美其他国家,极少选择非西方世界的发展中国家。
6、direct(直接Airbnb app注册)渠道的注册量是超过半数的,绝对领先。前5个渠道的注册量占整体注册量的90%以上。
7、从渠道的转化率柱状图中可以看出,airbnb整体的转化率都比较高。在0.38左右,转化率排名前3的渠道是:sem-non-brand-dumn、sem-brand-baidu、sem-brand-other 都是平拍竞价注册。
8、从图看出,活跃率较高的前3个渠道分别是:sem-non-brand-yandex、sem_brand-naver、sem-brand-yandex 。也都是平拍竞价的注册方式
9、从图中可以看出,用户的整体转化率只有1.7%。在注册用户到预定用户的环节转化率最低,只有10.25%。访问到注册次之,也只有31.73%,用户流失严重。复购环节最为良好,环节转化率达到了81.07%。
建议
1、加大女性细分市场的投入,给予更合理的营销预算。65-69岁之间的转化率与投入量不匹配,应加大这部分年龄市场的投入。
2、第三季度通常为旺季,第四季度为淡季,一二季度则平平,要按照客户的淡旺季的规律合理分配渠道的分配预算。
3、转化率前十的渠道 吗,主要都是sem的渠道转化率比较高,需要加大投入。而content-google,content-other这些渠道的转化率都很低,需要鉴别是否与该渠道的用途目的相匹配,只是吸引新客户还是为了转化客户。从而进行预算的合理安排。
4、注册用户到预定用户的环节流失率最高,可能是产品的介绍没有切中用户的痛点,需要进一步分析寻求产品符合客户的需求点,改变产品策略。