西瓜书读书2
第二章,围绕评估模型展开——
1 .为什么要有评估模型,因为经验误差和过拟合现象之间有一定的矛盾,借助评估模型,选择合适的方法,基于算法,可以将具体问题转化为归纳偏好的问题。在这个过程中训练集数据多少会影响模型的涵盖范围,形成经验误差,可见训练集数据集做的好,经验误差就会降低,输出结果与真实输出之间的误差就会小,也就是所说的泛化度不高,这样就会是过拟合现象。当然,如果训练集都做不好,连基本规律都不能呈现,自然是呈现欠拟合现象。
2. 如何对模型进行评估?需要从训练集中取测试集,且测试集不与训练集重合,看输出结果和预测结果之间的泛化误差,取得测试误差。具体方法需要将样例数据划分为测试集T和训练集S,无论留出法、交叉验证法还是自助法,最终目的都是为了生成最终模型。
3. 性能度量,关于评估指标很好理解——基于需求,多选好瓜,还是选出的瓜中去选好瓜。如果是前者,每次都要选择准确,即度量查准率。如果是后者,就要保证选出的一堆瓜中涵盖了所有的好瓜,即度量查全率。