数据分析实战之淘宝用户行为分析(1) -- 数据清洗
一步步做完收获颇多,记录分享。数据来自阿里天池。
淘宝用户行为分析(1) - 数据清洗
1. 导入数据。发现由于Timestamp数据过长,Timestamp以科学计数法显示。
① 将Timestamp调整为正常的时间戳格式
2. 观察数据,进行初步清洗。
① 处理空值
② 处理重复值
③ 将时间戳转换为日期格式
④ 处理异常值
以年为维度观察数据,发现
1970和2037属于异常值,删去。2018年和2015年的数据量太少(也可能是异常),不具有分析价值,删去。
>>> 明确分析的数据时间区间为2017年
以天为维度观察数据,发现除了2017-11-25至2017-12-03这个时间段(每日30w-50w数据量),其他日期的数据量非常非常少,仅有个位数或十位数。存在数据不完整的情况,不具有分析价值。
>>> 因此,进一步明确分析的数据统计区间为2017-11-25至2017-12-03这九天。
3. 为之后的分析准备数据。
① 基于下一步的分析需要,将datetime进行切分
>> 添加新列:时间段 (基于时间划分)
>> 添加新列:Weekday (基于日期判断当日为星期几)
4. 查看数据表,调整数据类型。