一种利用空间和光谱信息的高光谱遥感多分类器动态集成算法 -- DCS+SSI(简单投票法和MLA+LCA的集合)
一种利用空间和光谱信息的高光谱遥感多分类器动态集成算法
河海、武大
之前没有接触过多分类器在高光谱遥感影像上的应用,尝试过多模型联合去提取特征,没有在分类器端想过办法,所以看一下这篇论文
高光谱遥感影像分类面临的小样本、分类器不稳定等问题
首先,采用支持向量机等5个基分类器构建多分类器集合;其次,计算各个分类器的分类结果,将大多数分类器分类一致的像元列入样本数据;最后,根据待分类像元的邻域像元的标签分类情况,动态的选择合适的方式进行分类器集成。
0.引言
多分类器集成已经成为模式识别领域的一个前沿方向。
提升高光谱遥感影像分类精度的方法:
1.发展新的高光谱遥感影像分类算法
2.对现有的基分类器进行集成。静态集成(一旦设定分类器集成系统,不能更新)和动态集成(DCS)
现有的DCS算法主要通过局部精度估算进行多分类器的动态选择,包括总体局部精度估算(OLA)、局部类别精度估算(LCA)、利用多分类器行为信息进行局部精度估算(MCB)和和改进的局部精度估算等方法。
问题:仅利用光谱信息,没有利用高光谱遥感影像这种高度规则化数据本身所包含的空间信息?
提出了一种利用空间和光谱信息的多分类器动态集成算法(DCS-SSI dynamic classifier sekection with spatial and spectralinformation),解决了传统分类器集成方法利用空间信息不足、分类效果不稳定的问题。
1.DCS算法
1.1 DCS-OLA/LCA
该算法通过计算待分类像元局部区域上的分类器的分类精度,选择分类精度最高的分类器输出作为该像元的标签。
OLA是计算训练样本中被正确分类样本的百分比,取精度最高的分类器输出作为该像元的标签;LCA计算各类别被分类器正确分类的百分比,取百分比最高的类别作为该像元标签。
研究发现:局部区域取待分类像元在测试样本中的l邻域会获得更高的分类精度
1.2 DCS-MLA
对每个待分类像元Xi,j,分别计算所有训练测试样本到该像元的距离,按样本距离进行升序排列,选择n个最邻近像元,根据距离计算每个邻近像元的权重,并计算各基分类器在n邻近像元上正确分类的权重和,取权重和最高的分类器输出作为待分类像元的标签。
1.3 DCS-CS
该算法首先对影像进行聚类(利用k-means算法,k取高光谱遥感影像数据的地物类别总数),聚类后各聚类区域为R1,R2,…RK,计算各聚类中心C1,C2,…CK,选择各聚类上分类性能最佳的分类器Cr1,Cr2…Cr3;计算待分类像元到各聚类中心距离,选择距离最近聚类上的分类器输出作为该像元标签。
1.4 DCS-MCB
计算待分类像元到所有训练、测试样本的距离,并选择n个距离最近像元作为该像元邻近像元;其次在n邻近像元中选择光谱相似度(本文选用欧氏距离)大于设定阈值的m个邻近像元;在选定的m个邻近像元上计算各基分类器的分类正确率;如果某基分类器的分类正确率显著优于其他分类器,选择该基分类器输出作为待分类像元的标签,否则利用简单投票法计算待分类像元的标签。
2 DCS-SSI算法
2.1 基本原理
在进行待分类像元分类时首先考察待分类像元的空间信息,空间信息较少时,因为地物分布虽然有一定空间自相关性,但是连续分布不是绝对的,所以空间信息较少时,之用DCS-MCB,空间信息较多时,用DCS-SSI
2.2 算法步骤
第一步聚类,其实以上3个方法第一步都是想办法将相似的点尽量汇聚到一起,以提高分类器的分类效果,不管是选择欧式距离相近的点还是选择距离相近的点或者是直接聚类,思想都是相似的。
1.如何利用空间和光谱信息? 依据简单投票法和MLA+LCA准则计算Xij标签并输出
2.需要对图像进行预处理
3.实验与分析
HyMap Purdue Campus 与 AVIRIS Indian Pine 数据集
实验分析对比方法:DCS-OLA/LCA/MLA/CS/MCB
基分类器: SVM(poly)、SVM(gausssian)、SVM(RBF)、KNN、Classify(diagquadratic)
HyMap Purdue Campus
可见光和红外区的128个波段,空间分辨率为3.5m,实验出去水汽吸收影响之外的
126个波段。
分类效果:
DCS-CS考虑了空间信息,但分类精度受聚类上的基分类器选择影响较大。
DCS-MCB在进行多分类器动态集成时加入了分类器行为信息,每个待分类像元的邻近像元数量都是变化的,保证了分类器动态选择时待分类像元的邻近样本信息更加可靠,且仅当一个基分类器在该待分类像元邻近区域上的分类精度显著优于其他基分类器的分类结果时,才选择该基分类器的输出结果,否则选择投票法的输出作为结果。
简单投票法效果更好?空间邻域样本数量要比训练、测试样本少很多,分类器在小样本情况下学习不充分造成的分类误差较大。
为什么比DCS-MCB低?可能因为该数据中含有大量的混合像元,因此利用空间信息反而会导致算法精度降低。
3.2 AVIRIS Indiana Pine 高光谱遥感数据
145*145 220个波段
看图也能看出来效果非常不好(这个数据集算是高光谱遥感影像分类中必不可少的一个数据集了),从下图可以看出来,动态集成分类器是很好的思想,最现实是将其进一步移植到卷积神经网络的方法,做特征提取之后的分类器,单独使用,九十几的总体精度在卷积神经网络面前还是很低的,一个两三层的简单3D-CNN效果也在九十多以上的。
小样本数据一直遥感影像一个非常大的问题,遥感影像数据集不可能做成ImageNet那样,高维,数据量小都是非常突出的问题,所以OLA/LCA这些考虑局部分类精度的效果很不好。
总结:
所提方法没什么细节,效果也不好。DCS-SSI就是集合了MLA+LCA和简单投票法这两种方式。