《中国人工智能学会通讯》——9.12 集成学习中的挑战性问题及解决方法

9.12 集成学习中的挑战性问题及解决方法

然而，传统的集成学习算法，特别是聚类集成算法，在集成器成员选择、聚类结果融合、集成器参数优化等方面还存在一些亟待解决的科学问题（见图 4）: ① 集成器存在冗余成员，影响集成的最终结果；② 聚类集成算法集成器中多个聚类结果的融合质量有待进一步提高；③ 没有考虑到集成器参数往往受到外在环境（如样本空间和属性空间）和内在环境（如集成器基础模型的参数和权重）的影响。《中国人工智能学会通讯》——9.12 集成学习中的挑战性问题及解决方法
Yu et al [17] 针对上述科学问题，围绕“集成学习理论与应用”，从集成器成员选择、聚类结果融合、集成器参数优化等方面开展创新性研究，研究工作的整体框架如图 4 所示，并取得了一系列的创新成果，包括渐进式集成框架（成果 1）、基于图论的聚类集成框架（成果2）和自适应集成框架（成果3）。

第一，在集成器成员生成阶段，集成框架采用不同的数据映射技术来生成集成器中的一组成员，这组成员之间的差异性越大越好。然而并非所有的集成器成员都对最终结果有贡献。因此，需要研究如何生成一个合适的集成器，如何移除集成器中的冗余成员，使之能够增加集成器的多样性，并提升集成框架的性能。

为了解决集成器中冗余成员的移除问题，提出了渐进式集成框架，并设计了基于全局和局部代价函数的渐进式集成器成员选择过程，有效移除集成器中的冗余成员，增加了集成器的多样性。实验证明，新算法显著优于多种经典的集成算法。Yu etal [17] 考虑专家知识的影响，把专家提供的先验知识转化为约束条件，引入约束传播算法来加以利用，提出了渐进式半监督聚类集成框架。他们还结合子空间学习技术，提出了渐进式的子空间集成框架[18] ；此外，以渐进式集成框架为基础，把聚类集成扩展到聚类结构集成[19- 21] 。

第二，在聚类集成算法的聚类结果融合阶段，需要考虑如何对多个聚类结果进行融合，从而获得一个更好的综合聚类结果。然而，与分类集成算法不同，聚类集成算法的集成器中聚类结果的类的对应关系复杂，见图 5。首先，类的数量不一样，聚类结果1和2包含3个类，而聚类结果3包含4个类；其次，类类之间不是对应关系，如聚类结果 1 的类 2并不对应聚类结果 2 的类 2，而是类 3。传统的适用于分类集成算法的投票机制并不起作用 , 因此，需要设计新的一致性函数来对多个聚类结果进行融合。
《中国人工智能学会通讯》——9.12 集成学习中的挑战性问题及解决方法

为了解决集成器中多个聚类结果融合的问题，Yu et al [22- 26] 提出了基于图论和随机子空间的聚类集成算法，引入随机子空间技术处理高维数据，构造一致性矩阵，利用图论规范切算法构造一致性函数，对一致性矩阵进行分割，提高聚类结果融合的质量，提升了聚类集成算法在高维带噪音数据处理上的性能。在基于随机子空间和图论的聚类集成算法的基础上，Yu et al [27-28] 还引入模糊理论，充分考虑硬聚类和软聚类的有机结合，并选择互为补充的基础聚类算法，提出了多种混合模糊聚类集成框架。

第三，集成学习模型的性能往往受到外在环境（如样本空间和属性空间）和内在环境（基本分类器的参数和基本分类器的权重）的影响。但是传统的集成学习模型没有考虑到这些因素的综合影响，没有考虑到如何寻找最优的集成学习模型。而多角度自适应集成学习模型[29] ，不但能够考虑到集成模型的内在环境，而且能够把握集成模型和外在环境之间的关系。自适应集成模型之间会根据解决问题的需要进行一定的信息交互，不断地进行调整，直到达到最佳的状态。多角度自适应集成学习模型将在传统集成学习模型的基础上，从多个不同角度加入自适应学习过程，从而获取最优化的集成学习模型。

为了解决集成器的优化问题，提出了自适应集成框架 , 引入演化计算思想和多智能体理论，把集成器中每个成员看作一个智能体，运用演化计算思想，对集成器及其成员进行优化，从而提升集成器的整体性能[29-32] 。

第四，集成学习算法可应用于带噪音高维数据的挖掘中，比如生物信息数据挖掘和多媒体数据智能处理上，既扩展了集成学习算法的应用领域，又为生物信息数据和多媒体数据的有效处理提供了新的算法支撑。

《中国人工智能学会通讯》——9.12 集成学习中的挑战性问题及解决方法

9.12 集成学习中的挑战性问题及解决方法

相关推荐