数据分析实战之淘宝用户行为分析(1) -- 数据清洗

一步步做完收获颇多,记录分享。数据来自阿里天池

淘宝用户行为分析(1) - 数据清洗

1. 导入数据。发现由于Timestamp数据过长,Timestamp以科学计数法显示。

 ① 将Timestamp调整为正常的时间戳格式

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

 2. 观察数据,进行初步清洗。

① 处理空值

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

② 处理重复值 

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

 ③ 将时间戳转换为日期格式

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

④ 处理异常值

以年为维度观察数据,发现 数据分析实战之淘宝用户行为分析(1) -- 数据清洗

1970和2037属于异常值,删去。2018年和2015年的数据量太少(也可能是异常),不具有分析价值,删去。

>>> 明确分析的数据时间区间为2017年

数据分析实战之淘宝用户行为分析(1) -- 数据清洗 

以天为维度观察数据,发现除了2017-11-25至2017-12-03这个时间段(每日30w-50w数据量),其他日期的数据量非常非常少,仅有个位数或十位数。存在数据不完整的情况,不具有分析价值。

>>> 因此,进一步明确分析的数据统计区间为2017-11-25至2017-12-03这九天。

数据分析实战之淘宝用户行为分析(1) -- 数据清洗 

3. 为之后的分析准备数据。 

① 基于下一步的分析需要,将datetime进行切分

 >> 添加新列:时间段 (基于时间划分)

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

 >> 添加新列:Weekday (基于日期判断当日为星期几)

数据分析实战之淘宝用户行为分析(1) -- 数据清洗

 4. 查看数据表,调整数据类型。

数据分析实战之淘宝用户行为分析(1) -- 数据清洗