041.(10.23)集成学习之学习策略与多样性
常见学习策略
回归问题
-
平均法
-
加权平均
由于数据中样本不充分或噪声的影响,学出的权重有可能不靠谱,这时该方法未必优于普通平均法。
分类问题
-
绝对多数投票法
标记过半,则预测为该标记。
-
相对多数投票法
预测为得票最多的标记。若存在得票数目相同的标记,则随机选择一个。
-
加权投票法
注意,不同类型的输出值不能混用(如基学习器异质),可以看看是否有相应的转换技术。
学习法
当训练数据很多时,可通过另一个学习器进行结合,stacking是其中的代表。这里把用于结合的学习器称为次学习器或元学习器。
注意,在次级学习阶段,如果直接用初级学习器的训练集产生次级训练集,过拟合风险较大。因此,可以考虑交叉验证(如没一折中的训练集-初级,测试集-次级)、留一法等方式选取。
多样性
分歧(以回归为例)
集成的分歧可以体现个体学习器的差异。
误差
误差-分歧分解
(E为集成的泛化误差)
由上述公式可以看出,个体学习器准确性越高、多样性越大,集成越好。
详细推导可见:
Vincent__Lai:西瓜书集成学习的误差-分歧分解公式推导
多样性度量(一般指分类问题)
常见的多样性度量:不和度量、相关系数、Q-统计量、k-统计量
多样性增强
常见的增强方式有数据样本扰动、输入属性扰动、输出表示扰动、算法参数扰动。前两者在前面有提到过。
-
输出表示扰动:对输出操纵,如翻转部分分类结果,随机改变一些样本标记、对输出表示进行转化,可以是类别转化为回归,等等。
-
算法参数扰动: