1.类别不平衡 2. 删除缺失值的行或者列3. 输出表中某一行 4.转换表的数据5.删除只有一种数值的无用特征列6.查看每一列缺失值的总个数 8.将字符串类型转换为字符型

类别不平衡:假如样本中反例数目多,正例数目少 (西瓜书67页)

  1. 下采样(去除一些反例)
  2. 上采样(增加一些正例)
  3. 阈值移动(再缩放)

删除缺失值的行或者列

1.类别不平衡 2. 删除缺失值的行或者列3. 输出表中某一行 4.转换表的数据5.删除只有一种数值的无用特征列6.查看每一列缺失值的总个数 8.将字符串类型转换为字符型

df.iloc[ 数字] 可以输出对应的行

iloc是按照index(也就是内部数据的行数)的序值. loc按照index的具体值1.类别不平衡 2. 删除缺失值的行或者列3. 输出表中某一行 4.转换表的数据5.删除只有一种数值的无用特征列6.查看每一列缺失值的总个数 8.将字符串类型转换为字符型

1.类别不平衡 2. 删除缺失值的行或者列3. 输出表中某一行 4.转换表的数据5.删除只有一种数值的无用特征列6.查看每一列缺失值的总个数 8.将字符串类型转换为字符型


转换表的数据 (inplace=True代表更改源文件)

1.类别不平衡 2. 删除缺失值的行或者列3. 输出表中某一行 4.转换表的数据5.删除只有一种数值的无用特征列6.查看每一列缺失值的总个数 8.将字符串类型转换为字符型
 


删除只有一种数值的无用特征列


1.类别不平衡 2. 删除缺失值的行或者列3. 输出表中某一行 4.转换表的数据5.删除只有一种数值的无用特征列6.查看每一列缺失值的总个数 8.将字符串类型转换为字符型

 


查看每一列缺失值的总个数

1.类别不平衡 2. 删除缺失值的行或者列3. 输出表中某一行 4.转换表的数据5.删除只有一种数值的无用特征列6.查看每一列缺失值的总个数 8.将字符串类型转换为字符型


1.类别不平衡 2. 删除缺失值的行或者列3. 输出表中某一行 4.转换表的数据5.删除只有一种数值的无用特征列6.查看每一列缺失值的总个数 8.将字符串类型转换为字符型


样本不均衡(贷款案例)

  1. 调节正负样本权重参数
  2. 除了逻辑回归、随机森林可以尝试其他分类模型比如支持向量机或者Adaboosting
  3. 利用集成学习,使用多个模型
  4. 重新再处理特征,重新筛选特征
  5. 调整算法模型的参数