机器学习理论基础学习--第二天
文章目录
机器学习关于数据集的概念
第一部分基本概念
第二部分数据集中非数值型转化
第三部分性能矩阵
第四部分数据集总结
概念学习
如对于车与房子即动与静止的学习。
通过数据结合算法构建模型,再通过模型学习新的技能。
预测结果值是离散的就是分类问题,连续的数值就是回归问题。
机器学习分类详解
监督学习
非监督学习
1、非监督学习没有类别标签,只有特征,所以可以用特征之间的相似性或相异性进行不同的分类。如通过相似性的度量,让相似性比较大的点放一个组中,让相异性比较大的点放不同的组中。也可以完成让所有样本点得以分类的问题 ,达到分类的效果。
2、特征降维:是通过算法实现降低维度的,可以让我们算法处理的复杂度降低,而且从高维到低维度并不是简单删除一个特征,而是z1,z2,综合了x1,x2,x3中的某两个或全部的特征,即z1,z2,是x1,x2,x3综合起来的特征体现,且z1,z2,并不是x1还是x2特征还是x3特征,只是x1,x2,x3综合起来的特征体现。所以并不是将某个特征去掉了,只剩下两个特征了,这个叫特征选择,即从x1,x2,x3中选出某几个特征,就是特征选择。
半监督学习
强化学习
强化学习来解决连续决策问题。
连续决策—即做完当前一步知道下一步如何走,做完下一步知道下下一步如何走,之后依次进行下去。即连续的决策。如:无人驾驶–遇到红绿灯该怎么走就是强化学习,以及围棋。
迁移学习
机器学习分类总结
机器学习经典案例举例-手写体识别
机器学习三要素详解及概念强化
损失函数,误差函数,目标函数是一个意思。
0-1损失函数即真实值与预测值不等误差为1,否则为0。可用于对分类问题进行评估。
平方损失函数适合做房价预测即连续型的回归问题做评估。
如何设计机器学习系统
模型选择—泛化性能体现
给定两个相近或具有差不多泛化误差能力的模型。
机器学习三要素数学理论补充
对损失函数求导得到的,如下图所示:
正则化
交叉验证
为什么先在是进入机器学习最佳时机
前几年是我们自己要先把算法写出来,再去分析数据代码,最后结合数据与算法共同构建模型。现在由于有了机器学习的开源库,可以结合已有数据,来将重点放到数据分析,处理,建模上来。
以下为数据挖掘工具:
总结
大数据只是做基础的数据存储和统计计算。而机器学习算法是要从大量数据中挖掘有价值的数据,结合机器学习算法以及数据构建出模型,并做出预测。
采样是可以从数据中采样,即使得数据量变少,即可解决过拟合问题。而欠拟合本来数据量就少,再采样数据就更少了。所以采样是可以从数据中采样,即使得数据量变少,即可解决过拟合问题,不可以解决欠拟合问题。