Google机器学习课程笔记(3)
特征组合:不要组合过度
简单正则化
添加模型复杂度惩罚项、结构风险最小化(简化模型)
L2正则化
逻辑回归
S型函数:,确保输出在0,1之间
逻辑回归的损失函数:对数损失函数
其中(x,y)为数据集,y为标签,y‘为预测值
分类:使用逻辑回归解决分类任务
评估指标:精确率与召回率
分类阈值
2X2混淆矩阵:
ROC和曲线下面积
预测偏差=预测平均值-相应标签平均值
造成预测偏差的可能原因包括:
- 特征集不完整
- 数据集混乱
- 模型实现流水线中有错误?
- 训练样本有偏差
- 正则化过强
为什么只有模型的某些部分所做的预测如此糟糕?以下是几种可能性: