多标签分类(A Review on Multi-Label Learning Algorithms)
一、multi label是什么?
传统监督学习主要是单标签学习,而现实生活中目标样本往往比较复杂,具有多个语义,含有多个标签,比如一部电影可以同时被分为喜剧片和动作片,一则新闻可以同时属于政治和法律。
二、多标签任务定义:
X=Rd 表示d维的输入空间,Y={y1,y2,...,yq}表示带有q个可能标签的标签空间。
训练数据D(xi,yi), xi是一个d维的向量,yi是Y的一个标签子集;
学习得到想,y相关联函数f(xi,yi)
三、多标签任务的难点
在考虑标签之间的的关联性;多标签学习的主要难点在于输出空间的爆炸增长,比如10个标签,输出空间就有210,为了应对指数复杂度的标签空间,需要挖掘标签之间的相关性。
四、挖掘多标签之间相关性的三种策略
- 忽略和其它标签的相关性,比如把多标签分解成多个独立的二分类问题(简单高效)。忽略标签之间的联系
- 考虑标签之间的成对关联,比如为相关标签和不相关标签排序。灵活性不强,只考虑关联对
- 考虑多个标签之间的关联,比如对每个标签考虑所有其它标签的影响(效果最优)
五、评价指标
- 1、基于样本的评价指标(先对单个样本评估表现,然后对多个样本取平均)
- 2、基于标签的评价指标(先考虑单个标签在所有样本上的表现,然后对多个标签取平均)