时间序列 —— task04

特征工程

  • 基于数据分析与探索提取潜在有价值的特征时间序列 —— task04

  • 特征工程的重要性

    • 特征越好,模型的性能越出色
    • 特征越好,构建的模型越简单
    • 特征越好,模型的灵活性越强
  • 特征提取

    • 基于数据分析与探索提取
    • 箱型图分析
    • 点线图分析
  • 离散型特征很重要

    • 可用于设计规则
    • 易于模型拟合,xgboost、lightgbm、catboost等都以决策树为基模型
    • 便于理解
    • 便于做特征组合
    • 在推荐系统等领域很常见

简单粗暴的特征组合方式

  • 简单粗暴的进行加、减、乘、除、log、exp等运算
  • 易于生成大量特征,但会易出现过拟合问题,且不易于解释

建议的特征提取与组合方式

  • 理解问题背景,开发想象力,并做数据分析与探索
  • 以时间序列问题为例,常见的特征类别包括统计量(最大值、最小值、中位数、偏度、峰度等)、排序(各统计量在历史同期的排名)、分位数(各统计量在历史同期排名的分位数)等等
  • 以推荐系统为例,常见的特征类别包括用户特征、商品特征、行为特征(按时段统计)等等;可对其中的离散型特征直接做组合

特征工程通常会提取出大量特征,该如何选择出好的特征子集?

  • 劣态:剔除几乎无关的特征,保留大量特征

  • 处理自变量间共线性:可通过特征组合处理;A与B存在共线性,保留A,构造A/B 时间序列 —— task04

  • 优胜:挑选出良好特征,组成最优特征子集
    时间序列 —— task04

特征重要性分析方法