分类与聚类的区别以及聚类的方法分类

分类与聚类的区别

对于分类来说,在对数据集分类时,我们是知道这个数据集是有多少种类的。根据给定的数据集,训练出一个模式或者规则,对新来的数据进行类别判断。我们可以将分类看作是有监督的学习。
对于聚类来说,在对数据集操作时,我们是不知道该数据集包含多少类,我们要做的,是将数据集中相似的数据归纳在一起。比如对社交媒体中的人进行聚类,在聚类之前我们并不知道有多少个类别,我们可以通过他们之间的某一标准来度量他们之间的相似性,从而将相似的人群划分到一个组或者一个类中。我们可以把聚类看作是无监督的学习,因为数据的聚类类别是不知道的。

按照李春葆老师的话说,聚类是将数据对象的集合分成相似的对象类的过程。使得同一个簇(或类)中的对象之间具有较高的相似性,而不同簇中的对象具有较高的相异性。

对于度量对象之间的相似性与相异性,有很多方法,比如距离相似度,密度相似度,连通相似度,概念相似性度量(从语义上来判断相似性)等等。
另外,聚类算法又可以分为划分算法,层次算法,基于密度的算法,模型方法以及一些新型算法。聚类分类可参考下图:
分类与聚类的区别以及聚类的方法分类

参考博客:https://blog.csdn.net/xzfreewind/article/details/73770327;
参考文论:数据挖掘中的聚类算法研究,马飞,2008-06;