多视角聚类(一)Multi-view clustering on data with partial instances and clusters
多视角聚类(一)Multi-view clustering on data with partial instances and clusters
Linlin Zong ∗, Xianchao Zhang, Xinyue Liu, Hong Yu Key Laboratory for Ubiquitous Network and Service Software of Liaoning Province, Dalian School of Software, Dalian University of Technology, Dalian, 116620, China
一.文章所主要解决问题
在以往的多视角聚类算法中,一般有如下两个假设:(1)所有实例在所有视角中都出现且它们以同样的方式被索引;(2)所有聚类在所有视角都存在且都是相同实例的子集。
但本文结合真实情景,主要解决两种情况:(1)某些实例可能在某个视角是缺失的;(2)某些聚类在某个视角可能是缺失的。
二.主要思想
1.The MVPIC algorithm
首先在单视角中采用NMF(非负矩阵分解)算法。
在第v个视角中,NMF想要最小化的目标函数是:
其中是近似指标矩阵,它的第j行表示在第v个视角的第j个实例;
是基矩阵,它的第i列表示第v个视角的第i个聚类的基向量。
2.下面先讨论某些实例在某个视角缺失而聚类在每个视角都是完整的情况:
有目标xi,如果是它在第v个视角的代表,那么
的
就应该近似于
(即
的i行)。
是未知的,但可以通过第i个实例在每个视角的近似指标矩阵聚合得到。引入一个v视角的权重参数
0。
,这样便可以得到
。下面引入一个实例-视角指示矩阵
:
即只有当是目标xi的代表时C才为1,否则便为0。这样若V视角下xj不存在,则C为0。即C来指示实例是否在v视角里。
所以总的目标函数是:
文中举例:
3.下面讨论实例和聚类都不完整的情况:
引入了一个W参数:
即用W来指示视角v里面是否还有这个聚类。
目标函数是:
这个式子和上面一样,是总的误差。
D表示的是某个目标集在v视角和h视角中都有,所有要使它们之间的差异尽可能小。结合(6),(7)两式就得到总的目标函数:
文中举例到:
如上图,第一聚类和第二聚类在第一视角中都存在,第三聚类和第一聚类在第二视角中都存在。所以第一视角中的目标1和成比例,第二视角的目标1和
成比例,通过优化来减小不同视角相同目标之间的差异,我们想使
趋近于0.
4.优化
用的就是更新一个数,固定其他数。
三.结语
这篇文章思路还是比较简单,主要亮点就是用类似于分派函数的指示矩阵来判定。如用实例-视角指示矩阵来判定实例是否在视角中,用聚类-视角指示矩阵来判定聚类是否存在视角中,符合真实世界中某些实例或聚类在某个视角可能不存在的情况。
但个人感觉关于数据的残缺其实还是没有做出一个好的补充或解决方案。