1.大赛地址

北京PM2.5浓度回归分析训练赛
看了很长时间机器学习算法了，从这个博客开始打算长期更新一些算法的尝试，在实践中用起来。
先从最简单的线性回归开始吧。

2.赛题说明

数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据。
数据分为训练数据和测试数据，分别保存在pm25_train.csv和pm25_test.csv两个文件中。
其中训练数据主要包括35746条记录，13个字段，主要字段说明如下：
date：观测数据发生的日期（年-月-日）
hour：观测数据发生的时间点（时）
pm2.5：观测时间点对应的pm2.5指数（(ug/m^3)
DEWP：露点，空气中水气含量达到饱和的气温（â„ƒ）
TEMP：温度，观测时间点对应的温度（â„ƒ）
PRES：压强，观测时间点对应的压强（hPa）
Iws：累积风速，观测时间点对应的累积风速（m/s）
Is：累计降雪，到观测时间点为止累计降雪的时长（小时）
Ir：累计降雨，到观测时间点为止累计降雨的时长（小时）
cbwd_NE：观测时间点对应的风向为东北风(m/s)
cbwd_NW：观测时间点对应的风向为西北风(m/s)
cbwd_SE：观测时间点对应的风向为东南风(m/s)
cbwd_cv：观测时间点对应的风向为静风(m/s)
测试数据主要包括6011条记录，12个字段，测试数据的字段信息和训练数据相比，除了不包括pm2.5字段以外其他完全相同。学员需要通过所学的知识，利用训练数据建立回归模型，并用于预测测试数据相应的pm2.5指数。

3.线性回归

详细过程见

我的github上notebook

dcrace上提交的结果
机器学习实践系列（三）----达观杯--北京PM2.5浓度回归分析训练赛

4.结果思考

不明白为什么我自己算的mse和dcrace上的差很多。理论上讲pca降维后效果应该优于什么都不处理的吧。还没想清楚，有大神指点迷津么？小女子不胜感激

机器学习实践系列（三）----达观杯--北京PM2.5浓度回归分析训练赛

1.大赛地址

2.赛题说明

3.线性回归

详细过程见

4.结果思考

相关推荐