多视角聚类(四)Partial Multi-View Clustering via Consistent GAN
一.解决问题
现有的不完备多视角聚类大多是基于核或者非负矩阵分解。但是这些方法有两点缺陷
1)它们不能应用于大规模数据;
2)他们没有考虑学习一个适合聚类的潜在空间的同时也很好地推断出缺失的视图
二.主要思路
一.划分
首先在两个视角上,作者将数据分为了完整(paired)和单视角(Unpaired)。
二.GAN网络结构
1.编码器E1/E2
E1由L个全连接层组成,用来对视角1的输入数据X(1)进行处理得到视角1的潜在特征代表Z1这里是通过一个非线性函数。E2同理,得到
。同时为了得到两个视角的共同信息,参数
是部分共享(?)的。
2.生成器G1/G2
G1/G2结构对称,是通过潜在空间Z1/Z2又恢复回去。G1的输出是由低维特征代表E1/E2的z1,z2得到:
,
这里引入来一个公共空间Z。G2同理,可以得到和
。
3.判别器D1/D2
判别器是用来区分生成样本和真实样本
。对D1来说,它用来区别
和
,然后它反馈到生成网络中去更新它的参数。直到无法区分为止,D2同理。
4.深嵌入聚类层
这一层用来改变数据分布和利用编码网络和生成网络。基于公共空间Z和聚类质心计算现有数据分布和目标数据分布。然后用目标数据分布来调整现有数据分布还有更新生成网络和编码器的参数,使能够优化聚类质心。
三.目标函数
总的目标函数是这个,从左到右分别是编码损失,GAN损失还有KL聚类损失。
1.编码损失
2.GANcycle损失
3.KL 聚类损失
公共子空间代表:
用学生分布做核来计算相似度(表示聚类):
为了起到好的效果以及强调高置信度的数据点:
其中,然后聚类损失可以表示为目标分布与数据分布的KL-收敛性:
四.结语
对抗网络的思路值得借鉴。