分类与聚类的区别

对于分类来说，在对数据集分类时，我们是知道这个数据集是有多少种类的。根据给定的数据集，训练出一个模式或者规则，对新来的数据进行类别判断。我们可以将分类看作是有监督的学习。
对于聚类来说，在对数据集操作时，我们是不知道该数据集包含多少类，我们要做的，是将数据集中相似的数据归纳在一起。比如对社交媒体中的人进行聚类，在聚类之前我们并不知道有多少个类别，我们可以通过他们之间的某一标准来度量他们之间的相似性，从而将相似的人群划分到一个组或者一个类中。我们可以把聚类看作是无监督的学习，因为数据的聚类类别是不知道的。

按照李春葆老师的话说，聚类是将数据对象的集合分成相似的对象类的过程。使得同一个簇（或类）中的对象之间具有较高的相似性，而不同簇中的对象具有较高的相异性。

对于度量对象之间的相似性与相异性，有很多方法，比如距离相似度，密度相似度，连通相似度，概念相似性度量（从语义上来判断相似性）等等。
另外，聚类算法又可以分为划分算法，层次算法，基于密度的算法，模型方法以及一些新型算法。聚类分类可参考下图：
分类与聚类的区别以及聚类的方法分类