论文笔记:Towards K-means-friendly Spaces: Simultaneous Deep Learning and Clustering
1 摘要
降维和聚类是现在研究的两大任务。数据样本通过易于聚类的潜在表示得到的,但是实际上,潜在空间到数据的变换可能更复杂。本文将这个变换假设为一种未知的,可能是非线性函数。为了获得聚类友好型的潜层表示和更好的聚类效果,文章提出将降维和kmeans聚类联合的方法,其中,降维的实现通过深层神经网络(DNN)完成。
2 相关工作
1 K-means
2 线性数据生成模型
3 非线性数据生成模型
数据的生成过程比线性变换可能要复杂的多,因此,很有必要寻找一个非线性变换
DNN,联合降维和聚类。(谢等人,2016)和(杨等人,2016)的思想是将聚类模块连接到DNN的输出层,并共同学习DNN参数和聚类。
DEC方法的不足:没有尊重数据样本的规定,会得到一个离渴望值较远的比较小的一个函数值L。
3 提出方法
表示映射函数,表示参数的集合。用DNN作为映射函数, 因为DNN具有使用合理数量的参数逼近任何连续映射的能力。重构的方法有堆叠的自动编码器(SAE)