Google机器学习课程笔记(3)

特征组合:不要组合过度

简单正则化

Google机器学习课程笔记(3)

添加模型复杂度惩罚项、结构风险最小化(简化模型)

Google机器学习课程笔记(3)

L2正则化Google机器学习课程笔记(3)

逻辑回归

Google机器学习课程笔记(3)

Google机器学习课程笔记(3)

Google机器学习课程笔记(3)

S型函数:Google机器学习课程笔记(3),确保输出在0,1之间

逻辑回归的损失函数:对数损失函数Google机器学习课程笔记(3)

其中(x,y)为数据集,y为标签,y‘为预测值

 

分类:使用逻辑回归解决分类任务

评估指标:精确率与召回率

Google机器学习课程笔记(3)

分类阈值

2X2混淆矩阵:

Google机器学习课程笔记(3)

 

ROC和曲线下面积

Google机器学习课程笔记(3)Google机器学习课程笔记(3)

 

预测偏差=预测平均值-相应标签平均值

造成预测偏差的可能原因包括:

  • 特征集不完整
  • 数据集混乱
  • 模型实现流水线中有错误?
  • 训练样本有偏差
  • 正则化过强

Google机器学习课程笔记(3) 

为什么只有模型的某些部分所做的预测如此糟糕?以下是几种可能性:

  • 训练集不能充分表示数据空间的某些子集。
  • 数据集的某些子集比其他子集更混乱。
  • 该模型过于正则化。(不妨减小 lambda 的值。)