机器学习实践系列(三)----达观杯--北京PM2.5浓度回归分析训练赛

1.大赛地址

北京PM2.5浓度回归分析训练赛
看了很长时间机器学习算法了,从这个博客开始打算长期更新一些算法的尝试,在实践中用起来。
先从最简单的线性回归开始吧。

2.赛题说明

数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据。
数据分为训练数据和测试数据,分别保存在pm25_train.csv和pm25_test.csv两个文件中。
其中训练数据主要包括35746条记录,13个字段,主要字段说明如下:
date:观测数据发生的日期(年-月-日)
hour:观测数据发生的时间点(时)
pm2.5:观测时间点对应的pm2.5指数((ug/m^3)
DEWP:露点,空气中水气含量达到饱和的气温(℃)
TEMP:温度,观测时间点对应的温度(℃)
PRES:压强,观测时间点对应的压强(hPa)
Iws:累积风速,观测时间点对应的累积风速(m/s)
Is:累计降雪,到观测时间点为止累计降雪的时长(小时)
Ir:累计降雨,到观测时间点为止累计降雨的时长(小时)
cbwd_NE:观测时间点对应的风向为东北风(m/s)
cbwd_NW:观测时间点对应的风向为西北风(m/s)
cbwd_SE:观测时间点对应的风向为东南风(m/s)
cbwd_cv:观测时间点对应的风向为静风(m/s)
测试数据主要包括6011条记录,12个字段,测试数据的字段信息和训练数据相比,除了不包括pm2.5字段以外其他完全相同。学员需要通过所学的知识,利用训练数据建立回归模型,并用于预测测试数据相应的pm2.5指数。

3.线性回归

详细过程见

我的github上notebook

dcrace上提交的结果
机器学习实践系列(三)----达观杯--北京PM2.5浓度回归分析训练赛

4.结果思考

不明白为什么我自己算的mse和dcrace上的差很多。理论上讲pca降维后效果应该优于什么都不处理的吧。还没想清楚,有大神指点迷津么?小女子不胜感激