“未来杯”房租预测比赛-数据清洗

“未来杯”房租预测比赛-数据清洗

之前任务一我们对数据进行了EDA操作,了解了赛题、数据总体情况、缺失值、特征分布等信息,本次任务我们讲进行数据清洗工作。

一、载入数据

“未来杯”房租预测比赛-数据清洗

二、缺失值处理

缺失值的处理手段大体可以分为:删除、填充、映射到高维(当做类别处理)。

通过任务一我们知道缺失值情况是pu和pv;但是,根据特征nunique分布的分析,可以发现rentType存在"–“的情况,这也算是一种缺失值。
此外,诸如rentType的"未知方式”;houseToward的"暂无数据"等,本质上也算是一种缺失值,但是对于这些缺失方式,我们可以把它当做是特殊的一类处理,而不需要去主动修改或填充值。

处理方式:

将rentType的"–“转换成"未知方式"类别;
pv/pu的缺失值用均值填充;
buildYear存在"暂无信息”,将其用众数填充。
“未来杯”房租预测比赛-数据清洗
“未来杯”房租预测比赛-数据清洗

三、异常值处理

这里主要针对area和tradeMoney两个维度处理。
针对tradeMoney,这里采用的是IsolationForest模型自动处理;
针对areahetotalFloor是主观+数据可视化的方式得到的结果。

[参考资料:iForest (Isolation Forest)孤立森林 异常检测 入门篇)

孤立森林 是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法(详见新版教材“Outlier Analysis”第5和第6章)。其可以用于网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等。本文将通俗解释实现方法和日常运用,即无需深厚的数学功底。该文章详细介绍了孤立森林算法的原理,非常值得我们入门学习。
“未来杯”房租预测比赛-数据清洗
我们还可以画箱线图来处理异常值
“未来杯”房租预测比赛-数据清洗
结果:“未来杯”房租预测比赛-数据清洗

四、深度清洗

针对每一个region的数据,对area和tradeMoney两个维度进行深度清洗。 采用主观+数据可视化的方式。“未来杯”房租预测比赛-数据清洗

通过任务二的学习,我更加清楚了数据清洗的流程,对于缺失值,异常值等的处理方式。