机器学习概述
机器学习概述
1.机器学习工作流程
1.1机器学习工作流程
- 1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
结果达到要求,上线服务
没有达到要求,重新上面步骤
1.2数据集介绍
- 数据集中一行数据一般称为一个样本,一列数据一般称为一个特征。
数据集的构成:
由特征值+目标值(部分数据集没有)构成
为了模型的训练和测试,把数据集分为:训练数据(70%-80%)和测试数据(20%-30%)
1.3数据基本处理
- 即对数据进行缺失值、去除异常值等处理
1.4特征工程
-
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。
-
意义:会直接影响机器学习的效果
-
特征工程包含内容
1.特征提取
2.特征预处理
3.特征降维- 特征提取
将任意数据(如文本或图像)转换为可用于机器学习的数字特征 - 特征预处理
通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程 - 特征降维
指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程
- 特征提取
1.5机器学习
- 选择合适的算法对模型进行训练
1.6模型评估
- 对训练好的模型进行评估
2.机器学习算法分类
2.1监督学习
- 定义:
输入数据是由输入特征值和目标值所组成。
函数的输出可以是一个连续的值(称为回归),
或是输出是有限个离散值(称作分类)。
2.2无监督学习
- 定义:
输入数据是由输入特征值组成,没有目标值
输入数据没有被标记,也没有确定的结果。样本数据类别未知;
需要根据样本间的相似性对样本集进行类别划分。
2.3半监督学习
- 定义:
训练集同时包含有标记样本数据和未标记样本数据。
2.4强化学习
- 定义:
实质是make decisions 问题,即自动进行决策,并且可以做连续决策。
举例:
小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。
小孩就是 agent,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。
主要包含五个元素:agent, action, reward, environment, observation;
- 强化学习的目标就是获得最多的累计奖励。
3.模型评估
3.1分类模型评估
- 准确率:预测正确的数占样本总数的比例。
其他评价指标:精确率、召回率、F1-score、AUC指标等
3.2回归模型评估
- 均方根误差(Root Mean Squared Error,RMSE)
均方根误差(Root Mean Squared Error,RMSE)
RMSE是一个衡量回归模型误差率的常用公式。 不过,它仅能比较误差是相同单位的模型。
其他评价指标:相对平方误差(Relative Squared Error,RSE)、平均绝对误差(Mean Absolute Error,MAE)、相对绝对误差(Relative Absolute Error,RAE)
3.3拟合
-
过拟合
- 学习到的东西太多
学习到的特征多,不好泛化
- 学习到的东西太多
-
欠拟合
- 习到的东西太少
模型学习的太过粗糙
- 习到的东西太少
XMind: ZEN - Trial Version