萌新开始学算法
分类:
文章
•
2025-05-12 13:32:16
自白
- 我没有经过科班出身,半路出家进了软件行业,既然选择了远方,便只顾风雨兼程,在此****上记录我的所想所得。话不多说,今天开始学聚类。以下内容来源于<<我的第一本算法书>>这本书
聚类
将相似的对象分为一组
- 聚类就是在输入为多个数据时,将"相似"的数据分为一组的操作。1个组就叫做1个"簇"。下面的示例中每个点都代表1个数据,在平面上位置较为相近,被圈起来的点就代表一类相似的数据。也就是说,这些数据被分为了3个簇。
如何定义相似
定义数据间的差距
- 根据数据类型不同,定义该数据是否"相似"的标准也不同。具体来说,就是要对两个数据之间的"差距"进行定义。
- 假设某所高中的某个年级共有400名学生没现在我们想要将这些学生在考试中取得的语文,数学,英语成绩数据化,并将他们按照"擅长或不擅长的科目相似"进行聚类。
- 把每个学生都转换成"(语文成绩,数学成绩,英语成绩)“形式的数据后,就可以将两个数据(c1,m1,e1)和 (c2,m2,e2)之间的差距定义为(c1-c2)2+(m1-m2)2+(e1-e2)2,其中差距小的数据就互为"相似的数据”。
符合条件的算法
- 即使定义好了数据间的差距,聚类的方法也会有很多种。可以设定各种各样的条件,比如想把数据分为10个簇,或者想把1个簇内数据间的最大距离设为10,等等。而设定什么样的条件取决于进行聚类的目的。
- 假如是为了开办暑期补习班而对学生进行分班,那么就要根据老师和教室的数量来确定"簇的数量",并根据教室的面积确定"每个簇内的数据量"。现在有很多种可以满足各类条件的聚类算法可供选择。下一篇文章将介绍其中最基本,也是最有代表聚类算法"k-means算法"。该算法可以把数据按要求分为k个簇。