学习笔记(02):推荐系统核心精讲-数据与特征工程02

立即学习:https://edu.****.net/course/play/26133/325591?utm_source=blogtoedu

数据与特征工程2

(4)特征工程的一般流程和步骤

1)数值处理与特征增强 

缺失值处理:均值、中位数、众数填充

 归一化(统一量纲):min-max归一化、分位数归一化、正态分布归一化

2)特征表达与构建

类别特征(离散特征):one-hot编码、TF-IDF编码

数值特征(连续特征):直接使用(可能通过增强)、离散化(分桶)

3)特征选择

基于统计量:方差(选择方差大的)、皮尔森相关系数(两个变量之间的比较)

基于模型:基于线性模型的系数大小、通过添加或者减少特征让模型效果更好

 

(5)案例:构建特征利用logistic回归做CTR预估

学习笔记(02):推荐系统核心精讲-数据与特征工程02

下面是logistic回归模型的公式:

学习笔记(02):推荐系统核心精讲-数据与特征工程02