机器学习关于数据集的概念

第一部分基本概念

机器学习理论基础学习--第二天

第二部分数据集中非数值型转化

机器学习理论基础学习--第二天

第三部分性能矩阵

机器学习理论基础学习--第二天

第四部分数据集总结

机器学习理论基础学习--第二天

概念学习

如对于车与房子即动与静止的学习。
机器学习理论基础学习--第二天

通过数据结合算法构建模型，再通过模型学习新的技能。

机器学习理论基础学习--第二天
预测结果值是离散的就是分类问题，连续的数值就是回归问题。

机器学习分类详解

机器学习理论基础学习--第二天

监督学习

机器学习理论基础学习--第二天

非监督学习

1、非监督学习没有类别标签，只有特征，所以可以用特征之间的相似性或相异性进行不同的分类。如通过相似性的度量，让相似性比较大的点放一个组中，让相异性比较大的点放不同的组中。也可以完成让所有样本点得以分类的问题，达到分类的效果。
2、特征降维：是通过算法实现降低维度的，可以让我们算法处理的复杂度降低，而且从高维到低维度并不是简单删除一个特征，而是z1，z2，综合了x1，x2，x3中的某两个或全部的特征，即z1，z2，是x1，x2，x3综合起来的特征体现，且z1，z2，并不是x1还是x2特征还是x3特征，只是x1，x2，x3综合起来的特征体现。所以并不是将某个特征去掉了，只剩下两个特征了，这个叫特征选择，即从x1，x2，x3中选出某几个特征，就是特征选择。
机器学习理论基础学习--第二天

半监督学习

机器学习理论基础学习--第二天

强化学习

强化学习来解决连续决策问题。
连续决策—即做完当前一步知道下一步如何走，做完下一步知道下下一步如何走，之后依次进行下去。即连续的决策。如：无人驾驶–遇到红绿灯该怎么走就是强化学习，以及围棋。
机器学习理论基础学习--第二天

迁移学习

机器学习理论基础学习--第二天

机器学习分类总结

机器学习理论基础学习--第二天

机器学习经典案例举例-手写体识别

机器学习理论基础学习--第二天

机器学习三要素详解及概念强化

机器学习理论基础学习--第二天

损失函数，误差函数，目标函数是一个意思。

0-1损失函数即真实值与预测值不等误差为1，否则为0。可用于对分类问题进行评估。
平方损失函数适合做房价预测即连续型的回归问题做评估。

机器学习理论基础学习--第二天

如何设计机器学习系统

机器学习理论基础学习--第二天

模型选择—泛化性能体现

机器学习理论基础学习--第二天

给定两个相近或具有差不多泛化误差能力的模型。

机器学习三要素数学理论补充

机器学习理论基础学习--第二天

对损失函数求导得到的，如下图所示：

正则化

机器学习理论基础学习--第二天

交叉验证

机器学习理论基础学习--第二天

为什么先在是进入机器学习最佳时机

前几年是我们自己要先把算法写出来，再去分析数据代码，最后结合数据与算法共同构建模型。现在由于有了机器学习的开源库，可以结合已有数据，来将重点放到数据分析，处理，建模上来。
机器学习理论基础学习--第二天

以下为数据挖掘工具：

总结

大数据只是做基础的数据存储和统计计算。而机器学习算法是要从大量数据中挖掘有价值的数据，结合机器学习算法以及数据构建出模型，并做出预测。
机器学习理论基础学习--第二天

采样是可以从数据中采样，即使得数据量变少，即可解决过拟合问题。而欠拟合本来数据量就少，再采样数据就更少了。所以采样是可以从数据中采样，即使得数据量变少，即可解决过拟合问题，不可以解决欠拟合问题。
机器学习理论基础学习--第二天