网易微专业_Python数据分析师 第01章 数据思维导论:如何从数据中挖掘价值?
机器学习的应用场景
图像识别、语音识别、自然语言处理、证券市场分析
一、机器学习是什么
机器学习是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的方法。
机器学习的划分:
1、监督学习
知道所有特征集的属性并且知道每一条特征所对应的种类。
2、非监督学习
知道特征集,但是不知道每条特征集对应的种类。(一般用作相似性分析之类的)
3、半监督学习
知道部分特征对应的种类。
4、强化学习
强化学习不再区分未知数据和训练数据,而是统一为数据。并且由于没有训练集也就没有目标,而是预测结果会产生奖励反馈给算法。数据也同样提交给算法,然后算法对模型进行更新。
二、机器学习问题类型的划分
分类、回归和聚类。
三、机器学习是什么形式的
1、数据预处理
(1)数据预处理的目的
a、将数据整理为模型可以处理的格式
b、将质量差的数据进行整理,使得模型可以有效的学到更好的效果
(2)常用的数据预处理方法
a、缺失值处理
在很多场景中,不可避免的会遇到数据出现缺失值的问题。
(3)标准化
不同的特征的大小范围是不一样的,将特征标准化,也便于不同单位或量级的指标能够进行比较和加权。
2、特征工程
(1)采取特征工程的原因
数据属性过多,例如图像数据,图像大小可能是1024*768,80万左右的特征,显然这么多特征并不是完全需要的。
(2)特征选择
a、过滤式
主动去除一些特征。
b、包裹式
提取出部分作为特征。
c、嵌入式
不处理数据,而是通过其他方法将特征对结果的影响降为0。
(3)特征生成
从已有特征中提取主要信息,生成新的特征。
3、模型选择
训练不同模型,然后对不同模型评分进行选择。
4、模型训练
5、模型评价
过拟合的概念:
(1)评价指标
(2)评价方法