【paper】A Divide- and-Conquer Approach for Large-scale Multi-label Learning
A Divide- and-Conquer Approach for Large-scale Multi-label Learning
一、模型思路
- 利用特征向量将训练数据聚类为几个聚类。
- 通过将每个标签视为一个推荐项目(items),将多标签问题重新表述为推荐问题(users)。
- 学习高级分解模型(因子分解机,FM),以向局部集群的每个点推荐标签子集。
二、创新点
- 提出了一种基于分治的分类方法,该方法可以充分利用样本,特征和标签的相关性和稀疏性来获得令人满意的性能
- 第一个提出分治法与因子分解机相结合解决大规模多标签分类问题
- 我们与多个典型的多标签数据集上的许多先前算法相比,进行了多标签分类实验,以验证所提出算法的效率和吸引力算法。
三、模型概述
给定 n n n个 { ( x i , y i ) i = 1 n } \{(x_i,y_i)^n_{i=1}\} {(xi,yi)i=1n}个训练样本,特征向量 x i ∈ R d x_i\in\mathbf{R}^d xi∈Rd是 d d d维的,标签向量 y i ∈ 0 , 1 L y_i\in{0,1}^L yi∈0,1L是 L L L维的。
算法1(训练):
- 输入:训练样本。
- 对整体样本做K-means聚类将样本点氛围 C C C个簇。
- 在每个簇下面分别用因子分解机做分类器,分类器 c l f i clf_i clfi用于将学习标签的子集推(items)荐给不同的 C i C_i Ci簇下面的样本点(users)。
- 输出: C C C个簇(类别)和 C C C个分类器。
算法2(预测):
- 输入:测试集样本
x
i
x_i
xi和C个簇。
- 先根据距离确定新的样本点 x i x_i xi属于哪个簇
- 利用簇 C i C_i Ci分类器 c l f i clf_i clfi预测标签向量。
- 输出:预测的标签向量。
Point是文档聚类之后的类别,类似于哑变量。第一列为1的样本单独训练一个分类器。
Lable是因子分解机这个推荐系统分类器做出的主题推荐给每个聚类类别之后的的One-Hot向量。
Label是作为特征变量的一部分放到里面去了?
Attribute是文档的One-Hot vec
四、实验
(一)数据集
Extreme Classification Repository
http://research.microsoft.com/en-us/um/people/manik/downloads.html
(二)实验结果
略
(二)实验结果
由于大规模多标签分类数据集的每个数据点只有几个相关的正样本,因此我们将重点放在每个数据点少量正样本的准确预测上,而不是大量的负样本标签上。因此[email protected]已被广泛用作多标签算法的适当指标。具体而言,它对k上正确预测的数量进行计数,并随着k数量的增加而减少。因此,度量标准鼓励正确的标签排名更高。