多标签分类(A Review on Multi-Label Learning Algorithms)

一、multi label是什么?

       传统监督学习主要是单标签学习,而现实生活中目标样本往往比较复杂,具有多个语义,含有多个标签,比如一部电影可以同时被分为喜剧片和动作片,一则新闻可以同时属于政治和法律。

二、多标签任务定义:

     X=Rd 表示d维的输入空间,Y={y1,y2,...,yq}表示带有q个可能标签的标签空间。

训练数据D(xi,yi), xi是一个d维的向量,yi是Y的一个标签子集;

学习得到想,y相关联函数f(xi,yi)

三、多标签任务的难点

        在考虑标签之间的的关联性;多标签学习的主要难点在于输出空间的爆炸增长,比如10个标签,输出空间就有210,为了应对指数复杂度的标签空间,需要挖掘标签之间的相关性。

四、挖掘多标签之间相关性的三种策略

  1. 忽略和其它标签的相关性,比如把多标签分解成多个独立的二分类问题(简单高效)。忽略标签之间的联系
  2. 考虑标签之间的成对关联,比如为相关标签和不相关标签排序。灵活性不强,只考虑关联对
  3. 考虑多个标签之间的关联,比如对每个标签考虑所有其它标签的影响(效果最优)   

  多标签分类(A Review on Multi-Label Learning Algorithms)

多标签分类(A Review on Multi-Label Learning Algorithms)

五、评价指标

  • 1、基于样本的评价指标(先对单个样本评估表现,然后对多个样本取平均)
  • 2、基于标签的评价指标(先考虑单个标签在所有样本上的表现,然后对多个标签取平均)

多标签分类(A Review on Multi-Label Learning Algorithms)​​​​​​​