2019-12-16学习

auc指标和roc曲线

  • auc
    area under curve roc 曲线下的面积
  • roc曲线
    receiver operating characteristic curve 接受者操作特征曲线
    横轴为FP rate,纵轴为TP rate
  • TP rate和FP rate
    真正类率 FPR=FP/(FP+TN) 错误预测为正样本的负样本占负样本的比例
    负正类率 TPR=TP/(TP+FN) 正确预测为正样本的正样本占正样本的比例

auc的优势

AUC的计算方法同时考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价。例如在反欺诈场景,设欺诈类样本为正例,正例占比很少(假设0.1%),如果使用准确率评估,把所有的样本预测为负例,便可以获得99.9%的准确率。但是如果使用AUC,把所有样本预测为负例,TPRate和FPRate同时为0(没有Positive),与(0,0) (1,1)连接,得出AUC仅为0.5,成功规避了样本不均匀带来的问题。水平有限,欢迎拍砖~

软硬分类器

  • 硬分类器
    非概率模型
    监督学习称为判别模型
  • 软分类器
    概率模型
    监督学习称为生成模型

KS 指标(Kolmogorov-Smirnov)

KS=max(TPR-FPR)
如下图所示,这就是一个典型的KS曲线。

纵轴分别是TPR(绿色线),FPR(红色线)与TPR与FPR的距离(粉色的线)。

横轴我们并未选择传统的阈值(即0-1),我们将横轴变为逻辑回归中预测值Y的概率结果,所以横轴突破了1。在阈值为0.4117361的时候,TPR-FPR的差距是最大的,为0.902215。

因此,我们认为逻辑回归的模型应该将阈值定为41.17%。在这个时候,TPR很高,FPR很低。是最好的输出结果。

2019-12-16学习

psi指标

  • population stability index 群体稳定性指数 2019-12-16学习
    PSI = SUM( (实际占比 - 预期占比)* ln(实际占比 / 预期占比) )
    PSI数值越小,两个分布之间的差异就越小,代表越稳定。

KL散度

相对熵(relative entropy),又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布间差异的非对称性度量。

2019-12-16学习
KL散度是单向描述信息熵差异

PSI本质上是实际分布(A)与预期分布(E)的KL散度的一个对称化操作。其双向计算相对熵,并把两部分相对熵相加,从而更为全面地描述两个分布的差异。

粒度

粒度是数据库名词,计算机领域中粒度指系统内存扩展增量的最小值。粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。

细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。数据的粒度一直是一个设计问题。

lift曲线

(与roc曲线相反)
2019-12-16学习

  • Lift指标可以这样理解:在不使用模型的情况下,我们用先验概率估计正例的比例,即上式子分母部分,以此作为正例的命中率;利用模型后,我们不需要从整个样本中来挑选正例,只需要从我们预测为正例的那个样本的子集 中挑选正例,这时正例的命中率为 ,后者除以前者即可得提升值Lift。
    2019-12-16学习
    2019-12-16学习
    一般要求,在尽量大的depth下得到尽量大的lift,所以lift曲线的右半部分应该尽量陡峭。

P-R曲线

P-R曲线刻画查准率和查全率(召回率)之间的关系

查准率指的是在所有预测为正例的数据中,真正例所占的比例

查全率是指预测为真正例的数据占所有正例数据的比例

查准率和查全率是一对矛盾的度量,一般来说,查准率高时,查全率往往偏低,查全率高时,查准率往往偏低。在很多情况下,我们可以根据学习器的预测结果对样例进行排序,排在前面的是学习器认为最可能是正例的样本,排在后面的是学习器认为最不可能是正例的样本,按此顺序逐个把样本作为正例进行预测,则每次可计算当前的查全率和查准率,以查准率为y轴,以查全率为x轴,可以画出下面的P-R曲线。

2019-12-16学习
如果一个学习器的P-R曲线被另一个学习器的P-R曲线完全包住,则可断言后者的性能优于前者,当然我们可以根据曲线下方的面积大小来进行比较,但更常用的是平衡点或者是F1值。

平衡点(BEP)是查准率=查全率时的取值,如果这个值较大,则说明学习器的性能较好。F1值越大,我们可以认为该学习器的性能较好。

2019-12-16学习

层次分析法(AHP)

  • Analytic Hierarchy Process
    层次分析法的基本思路与人对一个复杂的决策问题的思维、判断过程大体上是一样的。

不妨用假期旅游为例:假如有3个旅游胜地A、B、C供你选择,你会根据诸如景色、费用和居住、饮食、旅途条件等一些准则去反复比较这3个候选地点.
首先,你会确定这些准则在你的心目中各占多大比重,如果你经济宽绰、醉心旅游,自然分别看重景色条件,而平素俭朴或手头拮据的人则会优先考虑费用,中老年旅游者还会对居住、饮食等条件寄以较大关注。
其次,你会就每一个准则将3个地点进行对比,譬如A景色最好,B次之;B费用最低,C次之;C居住等条件较好等等。
最后,你要将这两个层次的比较判断进行综合,在A、B、C中确定哪个作为最佳地点。

  1. 建立层次结构模型。在深入分析实际问题的基础上,将有关的各个因素按照不同属性自上而下地分解成若干层次,同一层的诸因素从属于上一层的因素或对上层因素有影响,同时又支配下一层的因素或受到下层因素的作用。最上层为目标层,通常只有1个因素,最下层通常为方案或对象层,中间可以有一个或几个层次,通常为准则或指标层。当准则过多时(譬如多于9个)应进一步分解出子准则层。
  2. 构造成对比较阵。从层次结构模型的第2层开始,对于从属于(或影响)上一层每个因素的同一层诸因素,用成对比较法和1—9比较尺度构造成对比较阵,直到最下层。
  3. 计算权向量并做一致性检验。对于每一个成对比较阵计算最大特征根及对应特征向量,利用一致性指标、随机一致性指标和一致性比率做一致性检验。若检验通过,特征向量(归一化后)即为权向量:若不通过,需重新构造成对比较阵。
  4. 计算组合权向量并做组合一致性检验。计算最下层对目标的组合权向量,并根据公式做组合一致性检验,若检验通过,则可按照组合权向量表示的结果进行决策,否则需要重新考虑模型或重新构造那些一致性比率较大的成对比较阵。

AHP本质是一种决策思维模型:将复杂的问题拆解成各个组成因素,并将这些因素按照支配关系分组形成有序的递阶层次结构,再通过两两对比打分确定因素之间的相对重要性,然后综合人的判断以推导出全局打分结果。

AHP的局限
只能从已知方案中择优,而无法生成新方案;
AHP得出的结果是粗略的方案排序(半定量),对于有着较高定量要求的决策需求,单用AHP显然不合适;
AHP的本质是使人的判断条理化(而不是代替人做决策),因此非常依赖于决策者的主观判断,不够客观。

混合高斯模型和EM算法

  • 最大化Q函数

  • 核心思想是:通过迭代的过程来找到一组最优的参数(μ∗,Σ∗,π∗)(\mu *,\Sigma *,\pi *)(μ∗,Σ∗,π∗),使得这组参数表示的模型最有可能产生现有的采样数据。每次迭代的过程就是参数矫正的过程。

2019-12-16学习

2019-12-16学习
如果我们已经清楚了某个变量服从的高斯分布,而且通过采样得到了这个变量的样本数据,想求高斯分布的参数,这时候极大似然估计可以胜任这个任务;而如果我们要求解的是一个混合模型,只知道混合模型中各个类的分布模型(譬如都是高斯分布)和对应的采样数据,而不知道这些采样数据分别来源于哪一类(隐变量),那这时候就可以借鉴EM算法

  • E步

  • M步

2019-12-16学习

2019-12-16学习