kaggle——Bike Sharing Demand

个人感觉最主要是通过visualization来获取一些信息,

在这之前一般都要先提取出一些有用的feature,比如这里的时间字符串要先提取出“小时”这个信息

有时在丢到model之前需要extract一些feature,也需要drop一些没用的feature

比如24小时变化的曲线

kaggle——Bike Sharing Demand

kaggle——Bike Sharing Demand

工作日24h变话的曲线(想想也是对的,大部分是在上下班的时间)

kaggle——Bike Sharing Demand

kaggle——Bike Sharing Demand

周末24h变换的曲线

kaggle——Bike Sharing Demand

kaggle——Bike Sharing Demand

从中就可以挖掘出一些有用的信息


挖掘出来最简单的应用就是根据时间来预测,用当前时间段的所有的平均值代替就行了,

但是这样做出来的结果是比较差的,还不如直接用random forest来的LB效果好(话说kaggle里面好像特别favor RF,是分类,回归问题大家都喜欢用

也许应该对不同的时间进行预测?但是这样样本量就减小了24倍,值得一试


有人也说:

1. 按照是否注册分别预测,因为从24h图上看他们的趋势是不一样的,

2. instead of predicting count, but predict ln(count+1), because evaluation is RMSLE


但是我写的对比,答案差不多