机器学习算法选择(带图)
机器学习算法选择
机器学习算法两个重要的概念:
- 天下没有白吃的午餐NFL(No Free Lunch):没有一个学习算法可以在任何领域总是产生最准确的学习器。
- 概率近似正确PAC(Probably Approximately Correct):当训练样本足够大时,“训练准确率”与“预测准确率”的差值,超出容忍误差范围的概率非常小。当模型在训练样本表现很好时,就可以十分有把握地认为它在“预测未来”时,表现一样好。
上述算法没有优劣之分,都仅适合特定的场景(选择时Try & Test)。对于机器学习、人工智能以及大数据行业来说,不要过于迷信!
- 封闭可控的场景
- 辅助增强而不是替代人
- 巧妙利用数据而不是等待大数据
- 容错机制而不过于依赖算法
回归
- 随机梯度下降SGD(Stochastic Gradient Decent),当数据量特别大时,加快计算速度
- Lasso回归(L1范数),会将不重要特征前的系数变为0,即忽略不重要特征。用于稀疏特征,和PCA降维作用差不多(原理不同)。
- 岭回归(L2范数),会将不重要特征前的系数缩小接近0,即降低不重要特征的影响,不完全忽略
- 弹性网络(Elastic Net),L1范数和L2范数结合使用
- 组合回归器,相当于集成学习Boosting。
分类
- Logistics回归分类和支持向量机分类,前者相当于普通车,后者相当于宝马
- 都不行就组合
聚类
-
不需要指定类别的聚类算法DB SCAN(基于密度的聚类算法),可以聚类任意形状
-
变分贝叶斯混合高斯模型VBGMM(Variational Beyesian Gaussian Mixed Model),求出分布密度,然后一般归类为最大概率的一类。
-
混合高斯模型GMM(Gaussian Mixed Model),常用于智能抠图算法,前景后景分离。
降维
- 局部线性嵌入LLE(Locally Linear Embedding),试图保持邻域内样本之间的线性关系,仅需要计算稀疏矩阵。
- 等度量映射ISOMAP,保持全局的结构信息,要求流形必须是凸结构。