Airbnb 数据分析

一、背景

  Airbnb(爱彼迎)是一个旅游房屋租赁平台,被称为是住房中的ebay或者说是闲鱼。

  它整体的商业逻辑其实共享经济的一部分,同样是将个人闲置的资源进行出租,提高闲置资源的利用率,达到利益最大化。

  目前,airbnb已经在全球191个国家,65000多个城市中提供住房服务,是一个世界级的品牌。但是是否还有改善的空间呢。

二、分析目的

 

提出问题:

1、  airbnb的用户具有怎样的特征

2、  Airbnb推广渠道的差别,占比和转化率的不同,是否有调整空间

3、  转化率该如何得到改善,减少用户的流失。

 

三、数据集概览

  数据来源地址: https://link.zhihu.com/?target=https%3A//www.kaggle.com/

c/airbnb-recruiting-new-user-bookings/data

 

  数据集名称: airbnb-recruiting-new-user-bookings(airbnb新用户预订数据)

 

  数据集大小:session.csv(14W*6),train_user.csv(21W*16)

 

字段理解:

train_user_2

id

id编号

date_account_created

账号创建日期

timestamp_first_active

逗留时间

date_first_booking

首次预订时间

gender

性别

age

年龄

signup_method

注册方式

signup_flow

用户注册页面

language

语言偏好

affiliate_channel

营销方式

affiliate_provider

营销来源

first_affiliate_tracked

注册之前,用户交互的第一个营销广告

signup_app

注册APP来源

first_device_type

设备类型

first_browser

浏览器类型

country_destination

目标国家

seesions

user_id

用户id

action

用户行为埋点

action_type

用户行为类型

action_detail

用户行为描述

device_type

此次对话的设备类型

 

四、数据清洗

缺失值

Train_user表

1、首次预订时间(date_first_booking)缺失值数量:124543

2、年龄(age)缺失值数量:87990

3、注册前用户交互的第一个营销广告(first_affiliate_tracked)缺失值数量:6065

Session表:

1、用户id(user_id)缺失值数量:3563

2、用户行为埋点(action)缺失值数量:10834

3、用户行为类型(action_type)缺失值数量:192193

4、用户行为描述(action_detail)缺失值数量:192193

MySQL的缺失值统计查询程序:

SELECT

SUM(case when id IS NULL then 1 ELSE 0 ENDAS "id",

SUM(case when date_account_created IS NULL then 1 ELSE 0 ENDAS"date_account_created",

SUM(case when timestamp_first_active IS NULL then 1 ELSE 0 ENDAS"timestamp_first_active",

SUM(case when date_first_booking IS NULL then 1 ELSE 0 ENDAS "date_first_bookingd",

SUM(case when gender IS NULL then 1 ELSE 0 ENDAS "gender",

SUM(case when age IS NULL then 1 ELSE 0 ENDAS "age",

SUM(case when signup_method IS NULL then 1 ELSE 0 ENDAS "signup_method",

SUM(case when signup_flow IS NULL then 1 ELSE 0 ENDAS "signup_flow",

SUM(case when `language` IS NULL then 1 ELSE 0 ENDAS "language",

SUM(case when affiliate_channel IS NULL then 1 ELSE 0 ENDAS "affiliate_channel",

SUM(case when affiliate_provider IS NULL then 1 ELSE 0 ENDAS "affiliate_provider",

SUM(case when first_affiliate_tracked IS NULL then 1 ELSE 0 ENDAS"first_affiliate_tracked",

SUM(case when signup_app IS NULL then 1 ELSE 0 ENDAS "signup_app",

SUM(case when first_device_type IS NULL then 1 ELSE 0 ENDAS "first_device_type",

SUM(case when first_browser IS NULL then 1 ELSE 0 ENDAS "first_browser",

SUM(case when country_destination IS NULL then 1 ELSE 0 ENDAS "country_destination"

FROM train

SELECT

SUM(case when user_id="" then 1 ELSE 0 ENDAS "user_id",

SUM(case when `action`="" then 1 ELSE 0 ENDAS "action",

SUM(case when action_type="" then 1 ELSE 0 ENDAS "action_type",

SUM(case when action_detail="" then 1 ELSE 0 ENDAS "action_detail",

SUM(case when device_type="" then 1 ELSE 0 ENDAS "device_type",

SUM(case when secs_elapsed="" then 1 ELSE 0 ENDAS "secs_elapsed"

FROM session

 

处理:

1、 年龄的缺失值填充为平均年龄

2、 删除Session表中的用户id(user_id)缺失值所在行

 

异常值

1、年龄(age)有70273条记录年龄大于80小于 10岁

2、有26条账号创建日期(date_account_created)大于首次预订时间(date_first_booking)的记录

 

处理:

1、 将70273条年龄异常值更改为年龄平均值37岁

2、删除26条记录账号创建日期(date_account_created)大于首次预订时间(date_first_booking)的记录

 

重复值

没有重复值

四、用户画像

1、性别分布

Airbnb 数据分析 填写图片摘要(选填)

 

从图中可以看出,女性用户占比53.17%,男性用户占比46.83%,两者相差不明显。

2、 年龄占比

Airbnb 数据分析   填写图片摘要(选填)

可以看出,用户大多集中在25到39岁之间,但分布情况并不极端,在更高的年龄上呈现一个比较平缓的分布曲线,20到69岁之间的人群都是比较显著存在的。

 

3、 终端分析

Airbnb 数据分析 填写图片摘要(选填)

在PC端,mac系列终端的用户和window终端的用户都比较多,mac的用户相对多一些;在手机端方面,苹果移动终端的用户显著比安卓移动终端的用户更多。

4、浏览器分布

Airbnb 数据分析 填写图片摘要(选填)

在浏览器用户占比方面,Chrome、Safari、Firefox、IE、Mobile Safari这五种浏览器占到的90%以上。

5、目的地分布

Airbnb 数据分析 填写图片摘要(选填)

从图上可以看出,airbnb用户的目的地国家大多选择美国,然后是欧洲和北美其他国家,极少选择非西方世界的发展中国家。

五、推广渠道分析

1、  渠道分析

Airbnb 数据分析 填写图片摘要(选填)

从图中可以看出,direct(直接Airbnb app注册)渠道的注册量是超过半数的,绝对领先。前5个渠道的注册量占整体注册量的90%以上。但是,这部分分析是分析各渠道的数据,所以在接下来的分析中将提出direct渠道。

2、渠道质量分析

Airbnb 数据分析 填写图片摘要(选填)

从渠道的转化率柱状图中可以看出,airbnb整体的转化率都比较高。在0.38左右,转化率排名前3的渠道是:sem-non-brand-dumn、sem-brand-baidu、sem-brand-other  都是平拍竞价注册。

 

3、渠道结构分析

Airbnb 数据分析 填写图片摘要(选填)

从图看出,活跃率较高的前3个渠道分别是:sem-non-brand-yandex、sem_brand-naver、sem-brand-yandex ,也都是平拍竞价的注册方式。

 

4、渠道趋势分析--新增注册用户数

Airbnb 数据分析 填写图片摘要(选填)

从趋势图中可以看出,新增的用户数在2010年第一季度到2012年第一季度之间都是比较平缓的上升,到了2012年第二季度开始,新增用户的增长率就提高了不少,强势抬升。而且且可以看出,在每年的第四季度,都会迎来一次小低谷,预计是冬季是旅游淡季的缘由。

 

5、渠道趋势分析--转化率

Airbnb 数据分析 填写图片摘要(选填)

相对于新增用户的高歌猛进,用户转化率的趋势却随着时间逐渐向下波动,尤其是2011年7到9月份之间,有一段比较剧烈的转化率的下坠。一方面可能受营销的影响:新增用户增多,但是刚需客户相对增长的较少;一方面可能受竞争对手的影响,夺走了一部分的优质客源。

6、渠道对比分析

Airbnb 数据分析 填写图片摘要(选填)

从图中可以看出,sem-brand-google的增长是最高的,而api-other这个渠道却在2014年第一季度出现的滑坡。

六、用户行为转化率

MySQL的各种类用户数统计查询程序:

#总访问数

SELECT COUNT(DISTINCT user_id) AS 访问用户 FROM session

UNION

#注册用户

SELECT COUNT(*) AS 注册用户 FROM train_user t1

INNER JOIN(SELECT user_id FROM session GROUP BY user_id) t2 ON t1.id=t2.user_id

UNION

#总预定用户

select COUNT(t3.user_id) AS 预定用户 FROM

(SELECT user_id FROM session where action_detail="reservations" GROUP BY user_id)t3

UNION

#总支付用户

select COUNT(t4.user_id) FROM

(SELECT user_id FROM session where action_detail="payment_instruments" GROUP BYuser_id)t4

UNION

#总复购客户

select COUNT(t5.user_id) FROM

(SELECT user_id FROM session where action_detail="reservations" GROUP BY user_idHAVING

COUNT(user_id)>=2)t5

 

Airbnb 数据分析 填写图片摘要(选填)

从图中可以看出,用户的整体转化率只有1.7%。在注册用户到预定用户的环节转化率最低,只有10.25%。访问到注册次之,也只有31.73%,用户流失严重。复购环节最为良好,环节转化率达到了81.07%。

总结

1、女性用户占比53.17%,男性用户占比46.83%

2、用户大多集中在25到39岁之间,但分布情况并不极端,在更高的年龄上呈现一个比较平缓的分布曲线,20到69岁之间的人群都是比较显著存在的。

3、在PC端,mac系列终端的用户和window终端的用户都比较多,mac的用户相对多一些;在手机端方面,苹果移动终端的用户显著比安卓移动终端的用户更多。

4

、在浏览器用户占比方面,Chrome、Safari、Firefox、IE、Mobile Safari这五种浏览器占到的90%以上

5、从图上可以看出,airbnb用户的目的地国家大多选择美国,然后是欧洲和北美其他国家,极少选择非西方世界的发展中国家。

6、direct(直接Airbnb app注册)渠道的注册量是超过半数的,绝对领先。前5个渠道的注册量占整体注册量的90%以上。

7、从渠道的转化率柱状图中可以看出,airbnb整体的转化率都比较高。在0.38左右,转化率排名前3的渠道是:sem-non-brand-dumn、sem-brand-baidu、sem-brand-other  都是平拍竞价注册。

8、从图看出,活跃率较高的前3个渠道分别是:sem-non-brand-yandex、sem_brand-naver、sem-brand-yandex 。也都是平拍竞价的注册方式

9、从图中可以看出,用户的整体转化率只有1.7%。在注册用户到预定用户的环节转化率最低,只有10.25%。访问到注册次之,也只有31.73%,用户流失严重。复购环节最为良好,环节转化率达到了81.07%。

 

建议

1、加大女性细分市场的投入,给予更合理的营销预算。65-69岁之间的转化率与投入量不匹配,应加大这部分年龄市场的投入。

2、第三季度通常为旺季,第四季度为淡季,一二季度则平平,要按照客户的淡旺季的规律合理分配渠道的分配预算。

3、转化率前十的渠道 吗,主要都是sem的渠道转化率比较高,需要加大投入。而content-google,content-other这些渠道的转化率都很低,需要鉴别是否与该渠道的用途目的相匹配,只是吸引新客户还是为了转化客户。从而进行预算的合理安排。

4、注册用户到预定用户的环节流失率最高,可能是产品的介绍没有切中用户的痛点,需要进一步分析寻求产品符合客户的需求点,改变产品策略。