机器学习的简单介绍及分类
一 、机器学习的简介
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。 它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
二、机器学习的分类
1、从机器学习角度问题分析
1.1 监督学习 (知道特征和标签)
1.2无监督学习(基于监督和无监督更复杂的算法)
1.3半监督学习(知道特征不知道标签)
2、从算法的功能角度分类
2.1 回归算法(逻辑回归也可以视作回归算法的一种)
- Ordinary Least Squares Regression (OLSR)
- Linear Regression
- Logistic Regression
- Stepwise Regression
- Locally Estimated Scatterplot Smoothing (LOESS)
- Multivariate Adaptive Regression Splines (MARS)
2.2 基于实例的算法
- k-Nearest Neighbour (kNN)
- Learning Vector Quantization (LVQ)
- Self-Organizing Map (SOM)
- Locally Weighted Learning (LWL)
2.3 决策树类算法
- Classification and Regression Tree (CART)
- Iterative Dichotomiser 3 (ID3)
- C4.5 and C5.0 (different versions of a powerful approach)
- Chi-squared Automatic Interaction Detection (CHAID)
- M5
- Conditional Decision Trees
2.4 贝叶斯类算法(这里所说的贝叶斯是在分类和回归问题中,隐含使用了贝叶斯院里的算法)
- Naive Bayes
- Gaussian Naive Bayes
- Multinomial Naive Bayes
- Averaged One-Dependence Estimators (AODE)
- Bayesian Belief Network (BBN)
- Bayesian Network (BN)
2.5 聚类算法(Clustering Algorithms)
- k-Means
- Hierarchical Clustering
- Expectation Maximisation (EM)
2.6 关联规则算法(Association Rule Learning Algorithms)
- Apriori algorithm
- Eclat algorithm
2.7 人工神经网络类算法(Artificial Neural Network Algorithms)
- Perceptron
- Back-Propagation
- Radial Basis Function Network (RBFN)
2.8 深度学习(Deep Learning Algorithms)
- Deep Boltzmann Machine (DBM)
- Deep Belief Networks (DBN)
- Convolutional Neural Network (CNN)
- Stacked Auto-Encoders
2.9 降维算法(Dimensionality Reduction Algorithms)
- Principal Component Analysis (PCA)
- Principal Component Regression (PCR)
- Partial Least Squares Regression (PLSR)
- Sammon Mapping
- Multidimensional Scaling (MDS)
- Linear Discriminant Analysis (LDA)
- Mixture Discriminant Analysis (MDA)
- Quadratic Discriminant Analysis (QDA)
- Flexible Discriminant Analysis (FDA)
2.10模型融合算法(Ensemble Algorithms)
- Random Forest
- Boosting
- Bootstrapped Aggregation (Bagging)
- AdaBoost
- Stacked Generalization (blending)
- Gradient Boosting Machines (GBM)
- Gradient Boosted Regression Trees (GBRT)
三、学习的一般思路
# 监督学习:基于训练集,对测试集进行预测
#训练集(离散问题) 知道特征也知道标签
任务:基于特征,判断目标(标签);
手段:基于已经有特征、已经有目标的数据·,去训练一个算法,去对已经有目标但没有特征的数据,去得到他的目标。
# 测试集(回归问题)
只知道特征,不知道目标
目标:通过之前训练集得到的算法,基于这些数据,得到他的算法
#无监督学习:在训练的时候就不知道特征,也不知道目标,要预测的特征和目标也不知道
#任务:互不相关的类别,通过这些数据,来获得另一特征的数据
四、机器学习的分类
- 监督学习算法(知道特征和标签)
- 半监督学习算法(基于监督和无监督更复杂的算法)
- 无监督学习算法(知道特征不知道标签)
五、机器学习的一般思路
- 得分函数
- 损失函数的最优化问题(可以看成得分函数的函数)
- 通过损失函数对得分函数的权重进行计算
六、机器学习的算法及相关资料