基础
体重 | 翼展 | 脚蹼 | 背后颜色 | 种属 | |
1 | 1000.1 | 125.0 | 无 | 棕色 | 红尾鸳 |
2 | 3000.7 | 200.0 | 有 | 黑色 | 普通潜鸟 |
3 | 570.0 | 75.0 | 无 | 黑色 | 象牙喙啄木鸟 |
鸟类分类系统
术语
训练集:大量已分类的数据,用于训练机器学习算法的数据样本集合
训练样本:训练集中一条已分类数据
特征(属性):用于区分类别的评测基准(体重,翼展,脚蹼,背后颜色)
目标变量(类别):(种属)
测试集:不提提供样本的目标变量,用于测试算法的样本集合
数据类型
数值型: 100.1,300,3000.11
二值型:(0,1)有两个可选值
枚举型:是指将变量的值一一列出来,变量的值只限于列举出来的值的范围内.
标称型:目标变量的结果只在有限目标中集中取值,如真或假
机器学习主要任务和对应算法分类
算法服务于机器学习,所以要知道机器学习的主要工作,从而选用适用的算法
1.解决分类问题
2.回归问题,主要用于预测数值型数据,例子:数据拟合曲线:通过给定数据点的最优拟合曲线。
3.实现聚类过程,聚类:将数据集合分成有类似的对象组成的多个类的过程。
4.实现密度估计:将寻找描述数据统计值的过程
监督学习:这类的算法知道预测什么,即知道目标变量的分类信息(理解就是知道要求得的具体结果)(分类,回归)
无监督学习:数据没有类别信息,无给定的目标值。无监督学习可以减少数据特征的维度,可以使用二维或三维图形直观的展示数据信息。
算法分类
监督学习 |
|
||||||||
无监督学习 |
|