图说《机器学习》周志华--第二章
一.要点
注:书P40倒数第二自然段最后两行内容和P41中2.4.3前面的两行相矛盾。式2.32应该是服从自由度为4的t分布
二.课后题
- 训练集数目为700,其中正例350,反例350.
那么有(C350500)2
余下的不用管 - 10折交叉验证:分层抽样。所以每折有5+,5-个样例。留下来做测试的也是5+,5-的样例。所以随机。错误率50%
留一法:不管怎么分,因为测试集占了一个样例。同类样例在训练集中必然比另外一类的数目少。故而始终将测试集判断成相反样例。错误率100% -
不妨令A的BEP值比B的低。那么,此时对A有P1=R1,F11=P1,对B有P2=R2,F12=P2;P1<P2.所以此时A的F1值低于B的F1值,与前提矛盾。
原本是想这么搞的。但看清“此时”这个前提条件了吗?你咋晓得计算F1时P=R?推不过去,所以无法确定 - TPR=TP/(TP+FN)=R
FPR=FP/(TN+FP)
P=TP/(TP+FP)
功夫不负有心人,P和FPR只要多试几次总能找出关系,再不济还有样例总数在,总能找出来的,我就不算了 - 由图可知。总面积减去ROC曲线上的面积就可以得到。具体的可以参考下https://blog.****.net/icefire_tyh/article/details/52065867这位的
- ROC曲线纵坐标TPR,横坐标FPR,可以得到错误率
- 看思维导图,有注明。在样本数目无限时,反推也是可以得到唯一ROC曲线的
规范化 | 优点 | 缺点 |
---|---|---|
Min-max | 1.操作简单2.都是正的3.不用频繁更新 | 出现极端值会导致情况不可靠 |
z-score | 1.出现极端值场面控制得住2.在0附近 | 每次都得更新 |