特征工程:日期和坐标特征处理

日期处理

一般来说,针对日期特征,处理时大概有以下思路

1.指明该日期属于某一时期的一特定时刻(Periodicity)
例如该日期是一个周的第几天(day number in a week)
月份(month),季度(season),年份(year),时(hour),分(minute),秒(second)等

2.指明该日期从某个特定时刻起过了多久(Time since)
a.与数据所在行无关,例如从2000年开始,该日期过去了多久
b.依赖于所在行,例如距离某个重大节日刚过去了多久,我们要预测某种产品的销量,可以增加这样一个特征,它离重大节日如国庆节,劳动节等过去了多久

3.两个日期间的间隔(difference between dates)
简单来说就是两个日期相减

通过这几种方式由日期生成的新特征,通常是数字型特征或类别特征,然后就可以再分别按不同的方式进行处理了。

坐标处理

1.特征中含有坐标信息,可以计算该坐标离最近的医院,商店,学校等距离,生成新特征

2.把坐标看做簇,计算离簇中心的距离

3.可以计算某个坐标附近的统计信息,统计附近人后密度,商店数量,房地产均价等

当用决策树模型拟合数据时,可以对坐标进行适当旋转,可能会有意想不到的效果,只是这个度很难掌握,究竟要旋转多少
在这里插入图片描述
特征工程:日期和坐标特征处理