面向高维和不平衡数据分类的集成学习研究论文研读笔记

高维不平衡数据的特征(属性)较多,类标号中的类别分布不均匀的数据。 

高维数据分类难本质问题

1.密度估计难问题;

2.维数灾难:特征数增加意味着分类所需的样本数量的增加;

3.Hughes问题:给出了一个广义上的数据测量复杂度,训练样本数量和分类精度三者间的关系即对有限样本而言,存在一个最优的数据复杂度,可使分类精度达到最优。若数据特征数很多,量过精度过高,都会导致分类精度下降。

分类中的数据不平衡有两种:类间不平衡和类内不平衡该文研究的是类间不平衡。

不平衡数据的分类照片照片什么困难的本质原因:

1.不恰当的评估标准:传统的分类算法通常在假设类别平​​衡的前提下,采用分类准确率作为评价标准,以平均准确率最大化为目标当类别不平衡时,为达到精度最大化,往往会牺牲少数类的性能;

2.数据稀疏:数据稀缺分为两种:绝对稀缺和相对稀缺绝对稀缺是指样本数量绝对过少,导致该类信息无法在训练数据中充分表达,而相对稀缺是指少数类本身数量并不过少,只是相对大类而言,占有的比例相对过少;

3.数据碎片:采用分治类的算法,如决策树算法,将原始问题划分为多个子问题来处理对于少数类而言,本身的数据量就不充分,划分后的子空间包含的数据信息就更少,使得一些跨空间的数据规律不能被挖掘出来,形成数据碎片;

4.不恰当的归纳偏差:不恰当的归纳算法往往不利于少数类的分类学习;

5.噪声。在噪声过滤的方法中,有些是将少数类作为噪声,删除后则少数类的数量将更稀疏。另外,由于少数类和噪声难以区分,往往把噪声数据包含在训练过程中,导致一些真正的少数类无法得到好的训练。


高维数据分类有两种解决思路

(1)在预处理阶段降维,减少特征数量;

(2)设计适用于高维数据分类的新算法。

分类前通过降维可一定程度解决高维数据引起的维数灾难常用的降维方法有两类特征变换状语从句:特征选择

1)特征变换:将原有特征空间进行某种形式的变换,重新产生一个低维且各维间更为独立的特征空间,包含线性变换和非线性变换两种。

2)特征选择:共从原始特征空间中选择一部分重要属性,组成新的特征空间,通过特征选择,删除一些和任务无关或者冗余的特征,简化的数据集常常会得到更精确地模型,也更容易理解。

根据特征选择中子集的选择的方式不同,特征选择算法被划分为三类:

1)过滤式(过滤器):把特征选择作为分类的一个预处理步骤,仅从特征本身出发,根据特征间的相关度选择子集,不考虑选择特征后的应用,选择过程独立于分类算法;

2)封装式(包装器):把分类算法作为选择的一个部分,研究发现,特征的最优子集依赖于分类算法的特定偏差,因此特征选择应考虑分类器的特性;

3)嵌入式(嵌入式):将特征选择过程与学习器训练过程融为一体,两者在同一优化过程中完成,即在学习器的训练过程中自动的进行了特征选择

一般而言,封装式的方法比单个过滤方法具有更高的准确率,但是由于需要在每个子集上进行评估,更为耗时。

降维方法可以大量减少特征数量,使普通算法能够分类高维数据,但降维算法所获得的结果是单个特征子集,这将损失其他特征所带来的信息,特征子集选取的好坏对于算法的性能将有较大的影响。为解决这一问题,一些适用于高维数据分类的算法相继提出,SVM是统计学习理论基础上发展起来的分类算法,适用于解决小样本和高维数据分类,但SVM存在两个问题:(1)对大型数据集,计算量大,速度慢;(2)面对高维数据集,分类结果难以解释而基于规则的分类方法可以解决的SVM 。存在的问题,其将关联规则挖掘与分类结合,先挖掘特征属性和类属性之间的关联规则,利用这些规则进行分类但其面临:规则表示,规则剪枝以及规则选择问题。

不平衡数据分类方法可以划分为三类

1)数据层:在训练前采用重取采样技术重构数据集,降低不平衡度,包括过采样状语从句:欠采样

2)算法层:针对不平衡数据特点构造新算法或改造现有算法,如单类学习状语从句:代价敏感学习

3)混合方法:将两者结合起来,如集成学习方法

集成学习方法来源于机器学习的研究。机器学习关注的一个基本问题就是算法的泛化能力(新数据上的处理能力),提高泛化能力是机器学习永远的追求。在面临不平衡数据时,由于基分类器仍然是由假设平衡的分类算法所产生,集成学习并不能直接应用于不平衡数据集,但是集成学习提供了一个统一的框架,即可以将数据层和算法层的方法结合起来, 。更好的处理不平衡数据分类问题目前用集成学习方法分类高维数据有以下几类方法:

1)先降维,再集成学习。是一种最简单的思路,利用降维技术降低数据数量,再采用集成学习方法提高准确率的本质特征,提高分类的准确率。

2)先对集成构建的个体子集降维,最后集成投票。是对第一种方法的改进,由于子集的划分保证了多样性,不同子集上的降维结果将有所区别,在特征减少的同时,可以利用多个子集弥补由于降维效果不佳所带来的损失。

3)基于特征的集成学习。是一种融合降维和集成的方法。集成学习的有效前提基础是基分类器具有多样性和准确性.Boosting和装袋都是基于数据子集的划分。而基于特征的集成学习的思想在于基分类器的构成是在特征子集上,而非整个特征空间。

根据最终特征子集产生的不同方式,基于特征的集成学习方法可以分为两类:

1)基于随机的方式,以随机的方式产生特征子空间,如随机子空间算法,随机森林算法等;

2)基于选择的方式,采用一定原则从特征子空间中选择部分特征子空间集成。通常此类方法都与搜索方法相关,基于一定的度量原则或目标,利用搜索算法,从特征子空间中搜索符合要求的特征子空间集合,再构造集成分类器。

       分析用于高维数据分类的两类集成学习算法可以发现基于随机的方式的方法主要面临随机子空间中属性数的选择,而在随机森林中除此之外还需要确定树的数量。这两个参数的选择对于算法有一定的影响基于选择的方式的方法面临两个问题:特征选择方法搜索方法,即如何选择合适的特征子集,使得构造的集成学习方法算法具有多样性和准确性;选择何种搜索方法使得在有限时间和空间中获得最优特征子集

       基于特征的集成学习在特征子集上构造基分类器的方式降低特征维度,利用集成学习方式提高算法泛化能力,具有适合解决高维数据分类问题的特性。但集成学习在解决不平衡数据分类时,其本身并不具有独特性,集成学习的基分类器的产生仍然面临着传统分类算法在面对不平衡数据时所面临的问题。之所以将其用于不平衡数据分类,在于其提供了一个统一的算法框架,可以将常用的不平衡处理方法,如取样技术和代价敏感方法融合在集成学习算法中,在解决不平衡分类问题时,充分利用集成学习提高算法的泛化能力的特性,可构造出一系列的算法。


分类不平衡的数据的集成方法

1)代价敏感集成:目前解决不平衡分类问题的代价敏感集成方法主要采用不同的方法更新的Adaboost算法的权重,使得算法对于不同的类别区别对待;

2)基于Boosting的数据预处理和集成学习:此类方法将取样技术嵌入到推进算法中,朝着小类的方向改变用于训练下一个分类器的数据分布;

3)基于Bagging的数据预处理和集成学习:装袋方法由于其简单性及具有较好的泛化能力,常常与预处理方法组合处理不平衡数据分类问题,采用这种方法的关键在于处理不平衡获得有效分类器的同时保证基分类器的多样性;

4)混合方法的数据预处理和集成学习:混合方法不同于前面两类方法之处是采用了双重混合,也就是将装袋和推进组合起来。


集成学习并非某一个算法,而是一系列的算法。通常集成学习分为两个步骤:构建和组合。第一步产生多个用于集成的基分类器,第二步在此基础上,组合基分类器的结果。根据产生基分类器的算法个数,集成学习可以分为同构集成学习异构集成学习。同构集成学习采用单个分类器算法,有构建策略产生不同的基分类器;而异构集成学习(多分类器系统)则采用不同的分类算法,利用分类算法间的差异性获得不同的基分类器。一般意义上的集成学习是指同构集成学习。

根据不同构造方法,集成学习算法可分为以下四种:

1)基于数据样本的(Boosting,Bagging);

2)基于特征的(Random Subspace);

3)基于输出类别的(ECOC);

4)基于随机性的(神经网络,决策树)。

根据组合形式,集成学习算法分为组合全部基分类器的算法选择性集成算法,而选择性集成算法主要由以下四类:

1)基于聚类的方法,将聚类算法应用于各基分类器的预测结果。每个基分类器对验证集中的各个实例军有一个预测结果,由此可获得一个T * N的矩阵,其中Ť为基分类器个数,N为验证集实例个数。把验证集矩阵作为聚类算法的输入数据,即可获得具有类似预测的基分类器聚类,根据聚类结果修剪基分类器集合,选择出具有代表性的基分类器;

2)基于排序的方法,是一种直观的方法,分为两个步骤,先基于某种衡量标准对基分类器排序,再采取适当的停止准则选取一定数量的基分类器;

3)基于选择的方法,根据是否采用统一模型对验证集中的所有个体进行预测,分为静态选择法和动态选择法,排序算法实际上是选择算法的一种。静态选择算法的特点是从已有基分类器中选择部分构建集成分类器,并用于预测验证集中的所有实例。动态选择法则是针对验证集的每个实例,动态选择合适的部分基分类器预测,即每个实例可能选择不同的基分类器组合;

4)基于优化的方法,其核心思想是对每个基分类器赋予一定的权重,采用优化算法获得最优权重向量,根据预设的阈值选择相应的基分类器。通常采用遗传算法(GA)优化基分类器权重,所不同的是采用的遗传算法编码方式。

基于集成特征选择的集成学习方法的关键是利用一定的度量获得选择的特征子空间集合。所以,此类算法的关键是特征子空间选择度量和获得方法的研究,而特征子空间选择度量的一个关键因素就是基分类器多样性的度量。

多样性度量方法主要分为两类:成对多样性度量非成对多样性度量

成对多样性度量有以下5种:相关性度量,Q统计量,评判间一致性K,不一致度量,双错度量。

成对非样性度量主要由以下6种:熵度量,Kohavi-沃伯特方差,者间一致性度量,“困难”度量,泛化多样性,偶然错误多样性。


预处理高维不平衡数据

高维不平衡数据分类的解决思路有两种:预处理后再分类和直接分类,一般预处理方法又包括降维方法和取样方法。

降维方法

Filter特征选择方法的评估直接依赖于数据集本身,通常认为相关性较大的特征或特征子集可获得较高的分类准确率。常见的Filter特征选择评估方法有信息增益,类间距离,关联度和不一致度等。

Wrapper器特征选择的核心思想是:与学习算法无关的过滤特征评价与后续的分类算法产生较大的偏差不同的学习算法偏好不同的特征子集,特征选择后的特征子集最终将用于后续的学习算法,则该学习算法的性能就是最好的评估标准。选择不同的分类算法以及特征空间搜索策略,则可产生各种Wrapper特征选择算法,常见的搜索方式有最佳优先搜索,随机搜索和启发式搜索。

取样方法

根据其取样方向可以分为两类,过采样和欠采样。根据取样策略可分为随机取样和算法取样。

过取样:增加小类实例;

欠取样:减少大类实例;

随机取样:以随机的方式删除或增加实例;

算法取样:根据一定的原则取样,如删除靠近大类边界的实例或增加任意产生的小类样例等一般来说,算法取样会产生一定的导向性。

分类算法评价方法

传统的分类算法假定类别分布平衡。但真实数据常常出现类不平衡、类分布偏斜的情况。当处理类不平衡数据时,由于多数类占优势,分类边界偏置于优势数据,传统的分类算法将面临对少数类预测能力下降的问题,从而影响整体预测性能。因而,应用通常的Acc(准确率)或Err(错误率)可能会出现偏差。目前不平衡数据分类的算法的评价方法包括:正确率、错误率、召回率、F-measure、Gmean、AUC、ROC曲线、precision-recall曲线和cost曲线等。而混淆矩阵表达实例分布的分布情况,是计算分类器性能度量的基础。


基于随机森林的不平衡特征选择算法

不平衡数据特征选择

1)基于预报风险误差的EasyEnsemble算法PREE

EasyEnsemble算法分为两步:

a)欠采样,从大类数据中随机抽取多个与小类数据一致的实例子集,并与小类一起组成多个新的训练数据集用于训练分类器;

b)所有分类器通过AdaBoost算法集成为最终的分类器。

PREE算法也为两步:

a)使用EasyEnsemble算法建立分类模型;

b)利用分类器模型获得特征子集。

2)基于抽样集成的特征选择算法EFSBS

EFSBS的思路比较简单,算法有以下三个步骤:

a)欠采样,采用随机有放回方法从大类中产生多个与小类数量相等的数据子集,再与小类数据一起组成新的训练数据集;

b)通过FCBF特征选择算法获得特征子集;

c)对产生的特征子集多数投票,获得最终的特征子集。

PREE和EFSBS共同之处在于都采用了集成学习算法,利用欠采样方法先平衡数据集。区别在于PREE算法严格意义应属于Wrapper方法,利用了集成学习算法的分类效果进行特征选择,EFSBS则属于Filter方法,在特征子集的选择上没有利用来自于分类算法的反馈。

随机森林变量选择

随机森林变量选择(RVS)是随机森林的一种隐式特征选择方法。当一个重要特征(对预测准确率有贡献)出现噪声时,预测的准确率应该会明显减少,若此特征是不相关特征,则其出现噪声对预测准确率的影响应该不大。基于这一思想,利用袋外数据(Out of Bag Data)预测随机森林性能时,若想知道某特征的重要程度,只需随机修改该特征数值,而保持其他特征不变,由此获得的袋外数据预测准确率与原始袋外数据预测准确率之差体现了该特征的重要程度其具体过程如下:

对于每个自举数据集袋内数据(InOfBagi),构建决策树Treei

1)确认袋外数据OutOfBagi;

2)同Treei预测OutOfBagi中实例的类标号,计算正确预测次数Sumoutofbagi;

3)对于每个随机变量FJ(J = 1 ... M):

一个)对OutOfBagi中的特征FJ的值随机排序,获得变化后的袋外数据集OutOfBagCij;

B)用Treei对OutOfBagCij中的实例进行预测,计算正确预测次数Sumoutofbagcij;

C)用原始OutOfBag正确预测次数减去改变特征Ĵ值后的袋外数据的正确预测次数。

对于特征Ĵ,先计算所有所有原始袋外数据预测正确率与改变特征Ĵ值后袋外数据的正确预测率之差,其在所有树上的平均值即代表了特征Ĵ的变量重要性。
随机森林变量选择方法实际上也是一种嵌入式的特征选择算法,充分利用了集成分类器构建过程所产生的分类模型。与PREE不同之处在于,PREE利用的是在特定特征上的结构风险变化,PREE在计算特定特征的AUC时,采用的是取特征平均值的方式;而随机森林变量选择方法基于的是无关特征对模型性能影响不大的思想,通过施加干扰来测试特征的准确程度,且这种方法乐意同时处理离散型和连续性数据,弥补了PREE的缺陷。


不平衡随机森林变量选择算法

高维数据处理的一种有效途径即通过特征选择降低特征数,而不平衡数据处理的有效途径是通过取样方法平衡数据。随机森林的两个步骤综合了此两项机制。不平衡随机森林变量选择算法(BRFVS)受随机森林算法启发,利用随机森林的构造过程,对不平衡数据集进行特征选择。

面向高维和不平衡数据分类的集成学习研究论文研读笔记

在随机子空间上构造决策树,是一种缩小特征空间的有效办法,而决策树算法计算分裂属性的过程也就是一个属性选择的过程,可以直接利用此过程选择重要特征。在每个UndeSamplingD数据集上都可以构造一棵在随机子空间中产生的决策树,也即获得一个特征重要性度量。N个UndeSamplingD可以获得N个特征重要性度量。这些特征重要性度量体现了各特征在不同UndeSamplingD数据集上的重要程度。但是每个UndeSamplingD所获得特征重要性度量的可信度是不一样的,在此体现为权重,也即可信度越高,所赋予的权重越高。

特征重要性度量

BRFVS采用RVS来计算特征重要性度量值.RVS中特征重要性度量的计算是基于袋外数据样本的。基于袋外数据样本测试算法性能或计算算法参数是当前常用的一种方法。这种方法的好处是可以减少计算时间。但在BRFVS中,由于采用的欠采样方法平衡数据集中的类别,如果按照袋外数据样本的获取方法,则会导致出现袋外数据的大类数据过多。因此,BRFVS采用ķ层交叉验证的方法来获取特征重要性度量。

权重计算方法

当大类数据和小类数据严重不平衡时,对大类数据欠采样时可能会产生差异性较大的UndeSamplingD数据子集。在此数据子集上建立的树的准确率也将有所区别。实际上,由于UndeSamplingD的多样性,其准确性是不同的.BRFVS算法认为最终集成判定一致度高的基决策树应该具有更高的权重,其所获得的特征重要性度量值具有更好的可信度。

基于随机森林的高维不平衡分类算法

???

总结部分:

    不论是高维数据还是不平衡数据,都可以预处理再分类照片照片什么照片什么什么照片什么什么什么直接分类照片照片什么照片什么什么照片什么什么什么

降维是常用的高维预处理方法,包括特征选择和特征变换;不平衡数据的预处理方法主要是取样技术,包括欠采样和过采样;预处理可以减少分类时间,但会损失特征或实例信息,预处理不准确将导致分类不准确。

直接分类高维数据的算法较少,基于特征的集成学习是其中的一种;直接分类不平衡数据的算法有三类:代价敏感算法,单一分类算法和集成学习。

注意:其中集成学习算法大都是在推进算法中引入代价或结合取样方法处理不平衡数据当数据展现高维和不平衡双重性时,现有方法无法获得较好的性能但从现有方法中可以发现,集成学习是两类数据分类方法的交集。

   面向高维和不平衡数据分类的集成学习研究论文研读笔记