机器学习实战——学习笔记(一)
第一章——机器学习基础
数据挖掘十大算法
C4.5决策树、K-均值(K-mean)、支持向量机(SVM)、Apriori、最大期望算法(EM)、PageRank算法、AdaBoost算法、k-近邻算法(kNN)、朴素贝叶斯算法(NB)和分类回归树(CART)算法
本书未包含PageRank算法、最大期望算法。
何为机器学习
机器学习就是把无序的数据转化成有用的信息,需要多学科的专业知识,用到了统计学知识。移动计算和传感器产生的海量数据意味着未来我们将面临着越来越多的数据,如何从海量数据中抽取到有价值的信息将是一个非常重要的课题。
机器学习的主要任务
为了测试机器学习算法的效果,通常使用两套独立的样本集:训练数据和测试数据。
-
监督学习(知道目标变量的分类信息)
- 分类
- 回归
-
无监督学习(无类别信息也无给定目标值)
- 聚类——将数据集合分成由类似的对象组成的多个类
- 密度估计——寻找描述数据统计值
选择合适的算法
机器学算法的目的
-
预测目标变量的值——监督学习算法
- 离散型——分类器算法
- 连续型——回归算法
-
无需预测变量值——无监督学习算法
- 将数据划分为离散的组——聚类算法
- 估计数据与每个分组的相似程度——密度估计算法
数据问题
主要考虑点如下:
- 特征值是离散变量还是连续变量
- 特征值中是否存在缺失的值
- 何种原因造成缺失值
- 数据中是否存在异常值
- 某个特征发生的频率如何
开发机器学习应用程序的步骤
本书选用python语言
- 收集数据——爬虫,API,传感器,公开可用的数据源…
- 准备输入数据——格式
- 分析输入数据——空值,异常值,展示数据
- 训练算法(核心)
- 测试算法(核心)
- 使用算法