基础


    体重 翼展    脚蹼 背后颜色 种属
1 1000.1 125.0 棕色 红尾鸳
2 3000.7 200.0 黑色

普通潜鸟

3 570.0 75.0 黑色 象牙喙啄木鸟

鸟类分类系统

术语

训练集:大量已分类的数据,用于训练机器学习算法的数据样本集合

训练样本:训练集中一条已分类数据

特征(属性):用于区分类别的评测基准(体重,翼展,脚蹼,背后颜色)

目标变量(类别):(种属)

测试集:不提提供样本的目标变量,用于测试算法的样本集合

数据类型

数值型: 100.1,300,3000.11

二值型:(0,1)有两个可选值

枚举型:是指将变量的值一一列出来,变量的值只限于列举出来的值的范围内.

标称型:目标变量的结果只在有限目标中集中取值,如真或假


机器学习主要任务和对应算法分类

算法服务于机器学习,所以要知道机器学习的主要工作,从而选用适用的算法

1.解决分类问题

2.回归问题,主要用于预测数值型数据,例子:数据拟合曲线:通过给定数据点的最优拟合曲线。

基础

3.实现聚类过程,聚类:将数据集合分成有类似的对象组成的多个类的过程。

4.实现密度估计:将寻找描述数据统计值的过程


监督学习:这类的算法知道预测什么,即知道目标变量的分类信息(理解就是知道要求得的具体结果)(分类,回归)

无监督学习:数据没有类别信息,无给定的目标值。无监督学习可以减少数据特征的维度,可以使用二维或三维图形直观的展示数据信息。

算法分类

监督学习
k-近邻算法  
朴素贝叶斯算法  
支持向量机  
决策树  

无监督学习
k-均值  
DBSCAN