多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

一.解决问题

现有的不完备多视角聚类大多是基于核或者非负矩阵分解。但是这些方法有两点缺陷

1)它们不能应用于大规模数据;

2)他们没有考虑学习一个适合聚类的潜在空间的同时也很好地推断出缺失的视图

二.主要思路

一.划分

首先在两个视角上,作者将数据分为了完整(paired)和单视角(Unpaired)。

多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

二.GAN网络结构

1.编码器E1/E2

E1由L个全连接层组成,用来对视角1的输入数据X(1)进行处理得到视角1的潜在特征代表Z1这里是通过一个非线性函数多视角聚类(四)Partial Multi-View Clustering via Consistent GAN。E2同理,得到多视角聚类(四)Partial Multi-View Clustering via Consistent GAN。同时为了得到两个视角的共同信息,参数多视角聚类(四)Partial Multi-View Clustering via Consistent GAN是部分共享(?)的。

2.生成器G1/G2

G1/G2结构对称,是通过潜在空间Z1/Z2又恢复回去。G1的输出多视角聚类(四)Partial Multi-View Clustering via Consistent GAN是由低维特征代表E1/E2的z1,z2得到:多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

这里引入来一个公共空间Z。G2同理,可以得到多视角聚类(四)Partial Multi-View Clustering via Consistent GAN多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

3.判别器D1/D2

判别器是用来区分生成样本多视角聚类(四)Partial Multi-View Clustering via Consistent GAN和真实样本多视角聚类(四)Partial Multi-View Clustering via Consistent GAN。对D1来说,它用来区别多视角聚类(四)Partial Multi-View Clustering via Consistent GAN多视角聚类(四)Partial Multi-View Clustering via Consistent GAN,然后它反馈到生成网络中去更新它的参数。直到无法区分为止,D2同理。

4.深嵌入聚类层

这一层用来改变数据分布和利用编码网络和生成网络。基于公共空间Z和聚类质心多视角聚类(四)Partial Multi-View Clustering via Consistent GAN计算现有数据分布和目标数据分布。然后用目标数据分布来调整现有数据分布还有更新生成网络和编码器的参数,使能够优化聚类质心。

三.目标函数

总的目标函数是这个,从左到右分别是编码损失,GAN损失还有KL聚类损失。

多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

1.编码损失

多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

2.GANcycle损失

多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

3.KL 聚类损失

公共子空间代表:

多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

用学生分布做核来计算相似度(多视角聚类(四)Partial Multi-View Clustering via Consistent GAN表示聚类):

多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

为了起到好的效果以及强调高置信度的数据点:

多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

其中多视角聚类(四)Partial Multi-View Clustering via Consistent GAN,然后聚类损失可以表示为目标分布与数据分布的KL-收敛性:

多视角聚类(四)Partial Multi-View Clustering via Consistent GAN

四.结语

对抗网络的思路值得借鉴。