多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering

Zhou, T., Zhang, C., Peng, X., Bhaskar, H., & Yang, J. (2020). Dual Shared-Specific Multiview Subspace Clustering. 50(8), 3517–3530.

一.问题聚焦

现在的聚类算法大多只关注了视角间的相关性而可能忽略了每个视角的独特性,这可能会丢失一些有效信息。很小有方法在聚类的过程中既整合了多个视角又保留了特定视角的独特性。

二.主要方法

1.基于自表示的子空间聚类(Self-representation-based subspace clustering)

假设每个数据点能够被它们原始数据的线性组合所表示。那么自表示模型的公式可以表示为:

多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering

L表示特征维度,N表示样本个数。Z是自表示矩阵且里面每个元素zi是从原始数据X中的数据点xi编码得到。多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering(·) and 多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering(·)分别表示损失函数和约束项。为了把数据聚类到它们可能的子空间,通过相似度矩阵来计算多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering。然后这个矩阵被用于谱聚类来得到最终聚类结果。

2.本文所用方法

首先对不同视角下的数据做了一个低维的投影得到该视角在低维的代表矩阵多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering即可能误差:

多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering

然后为了进行多视角聚类,我们将此时进行扩展:

多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering

作者用下图表示了这个投影过程:

多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering

H表示多视角间的共享成分,多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering表示每个视角的特定特征。作者假设不同视角在低维下只共享了部分特征来均衡多视角间的关联,所以我们能够得到目标函数:

多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering

然后将其用上文提到的自表示,目标函数可以写成:

多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering

这里多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering表示所有视角的自表示系数矩阵,多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering表示每个独立视角的自表示特定系数矩阵,多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering表示自表示过程中的误差。

下面作者将共享信息和特定视角信息融合到聚类框架中,得到目标目标函数:

多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering

这个目标函数第一部分用了核范数来保持视角共享特征的低秩,第二部分用了L2-1范数来使误差尽量小靠近0,第三部分个人感觉也类似于第二部分是一个约束项来保留每个视角特有的信息。这样个人感觉第一部分尽量小是为了低秩稀疏来体现共享信息,第二部分尽量小是为了减小误差,第三部分尽量小是为了使每个视角的特有信息尽量少来使每个视角的特定信息尽量“独特”。

三.优化

为了使用传统的multipliers进行优化,即每次优化一个数固定其他数,作者引入了辅助向量J和多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering,得到下面式子:

多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering

然后用了一个增广拉格朗日函数:

多视角聚类学习(二)-Dual Shared-Specific Multiview Subspace Clustering

接下来就是传统的固定其他数更新一个数流程了。

四.结语

这篇论文的主要亮点在于它保留了每个视角的特定信息。但个人感觉其实作者只用了其作为约束条件,也许将其单独提出来做一个目标函数可能会有一个更好的利用。