房产预测_数据处理
1.数据处理
1.1 读取数据
查看列信息
1.2 处理数据
由于的做的是预测房价。为了简单模型,去掉了一些不必要的字段如标题title 核心卖点,配套设施。三个字段。
分析数据 downPayment 和Price 成正比可以去掉
预测房价所以price 也不能有。
我们预测的房子的价格也是房子的每平方的单价,所以总价price可以删除。然后sizeType 有的没有是暂无,删除这行数据
把户型拆分成3个字段:室、厅、卫,以下一段代码新产生一个DataFrame保存新产生的3个字段
删除size字段中的平米,使该字段内容变为数字内容。并删除unitPrice字段中的元/平米,使该字段内容变为数字内容
将房屋的朝向转换为0-1矩阵,使用pd.get_dummies方法发现有不规则值???和请选择朝向
数据异常少就删除。
将方向转为one_hot 向量。
对楼层处理,没有的删除。
处理commuity 将空的删除掉。并将其设置为1.
查看数据可知有些楼层超过8层没有电梯。所以对其进行处理。
学校处理为1,0。
对高度进行处理,利用get_dummies获取。
对户型大小进行处理
对装修进行处理
对区域进行处理。
然后对houseDetail中的年限进行处理
2 保存数据
参考:https://www.jianshu.com/p/0169a332ed0a