《中国人工智能学会通讯》——9.12 集成学习中的挑战性问题及解决方法

9.12 集成学习中的挑战性问题及解决方法

然而,传统的集成学习算法,特别是聚类集成算法,在集成器成员选择、聚类结果融合、集成器参数优化等方面还存在一些亟待解决的科学问题(见图 4): ① 集成器存在冗余成员,影响集成的最终结果;② 聚类集成算法集成器中多个聚类结果的融合质量有待进一步提高;③ 没有考虑到集成器参数往往受到外在环境(如样本空间和属性空间)和内在环境(如集成器基础模型的参数和权重)的影响。《中国人工智能学会通讯》——9.12 集成学习中的挑战性问题及解决方法
Yu et al [17] 针对上述科学问题,围绕“集成学习理论与应用”,从集成器成员选择、聚类结果融合、集成器参数优化等方面开展创新性研究,研究工作的整体框架如图 4 所示,并取得了一系列的创新成果,包括渐进式集成框架(成果 1)、基于图论的聚类集成框架(成果2)和自适应集成框架(成果3)。

第一,在集成器成员生成阶段,集成框架采用不同的数据映射技术来生成集成器中的一组成员,这组成员之间的差异性越大越好。然而并非所有的集成器成员都对最终结果有贡献。因此,需要研究如何生成一个合适的集成器,如何移除集成器中的冗余成员,使之能够增加集成器的多样性,并提升集成框架的性能。

为了解决集成器中冗余成员的移除问题,提出了渐进式集成框架,并设计了基于全局和局部代价函数的渐进式集成器成员选择过程,有效移除集成器中的冗余成员,增加了集成器的多样性。实验证明,新算法显著优于多种经典的集成算法。Yu etal [17] 考虑专家知识的影响,把专家提供的先验知识转化为约束条件,引入约束传播算法来加以利用,提出了渐进式半监督聚类集成框架。他们还结合子空间学习技术,提出了渐进式的子空间集成框架[18] ;此外,以渐进式集成框架为基础,把聚类集成扩展到聚类结构集成[19- 21] 。

第二,在聚类集成算法的聚类结果融合阶段,需要考虑如何对多个聚类结果进行融合,从而获得一个更好的综合聚类结果。然而,与分类集成算法不同,聚类集成算法的集成器中聚类结果的类的对应关系复杂,见图 5。首先,类的数量不一样,聚类结果1和2包含3个类,而聚类结果3包含4个类;其次,类类之间不是对应关系,如聚类结果 1 的类 2并不对应聚类结果 2 的类 2,而是类 3。传统的适用于分类集成算法的投票机制并不起作用 , 因此,需要设计新的一致性函数来对多个聚类结果进行融合。
《中国人工智能学会通讯》——9.12 集成学习中的挑战性问题及解决方法

为了解决集成器中多个聚类结果融合的问题,Yu et al [22- 26] 提出了基于图论和随机子空间的聚类集成算法,引入随机子空间技术处理高维数据,构造一致性矩阵,利用图论规范切算法构造一致性函数,对一致性矩阵进行分割,提高聚类结果融合的质量,提升了聚类集成算法在高维带噪音数据处理上的性能。在基于随机子空间和图论的聚类集成算法的基础上,Yu et al [27-28] 还引入模糊理论,充分考虑硬聚类和软聚类的有机结合,并选择互为补充的基础聚类算法,提出了多种混合模糊聚类集成框架。

第三,集成学习模型的性能往往受到外在环境(如样本空间和属性空间)和内在环境(基本分类器的参数和基本分类器的权重)的影响。但是传统的集成学习模型没有考虑到这些因素的综合影响,没有考虑到如何寻找最优的集成学习模型。而多角度自适应集成学习模型[29] ,不但能够考虑到集成模型的内在环境,而且能够把握集成模型和外在环境之间的关系。自适应集成模型之间会根据解决问题的需要进行一定的信息交互,不断地进行调整,直到达到最佳的状态。多角度自适应集成学习模型将在传统集成学习模型的基础上,从多个不同角度加入自适应学习过程,从而获取最优化的集成学习模型。

为了解决集成器的优化问题,提出了自适应集成框架 , 引入演化计算思想和多智能体理论,把集成器中每个成员看作一个智能体,运用演化计算思想,对集成器及其成员进行优化,从而提升集成器的整体性能[29-32] 。

第四,集成学习算法可应用于带噪音高维数据的挖掘中,比如生物信息数据挖掘和多媒体数据智能处理上,既扩展了集成学习算法的应用领域,又为生物信息数据和多媒体数据的有效处理提供了新的算法支撑。