[机器学习]Scikit-Learn学习笔记01——Scikit-Learn基础概念

概念

1.sklearn是一个Python第三方提供的非常强力的机器学习库

2.scikit-learn是一个基于NumPy,SciPy,Matplotlib的开源学习工具包

3. 在数据量不是过大的情况下,可以解决大部分问题.


安装

安装 Scikit-learn (sklearn) 最简单的方法就是使用 pip或者用PyCharm或者 Anaconda 安装它.在安装前,要确保电脑已经安装了Numpy和Scipy

PIP使用方法

# python 2+ 版本复制:pip install -U scikit-learn

# python 3+ 版本复制:pip3 install -U scikit-learn


使用方法

不要直接去用,先了解一下都有什么模型方法,然后选择适当的方法,来达到你的目标。Sklearn 官网提供了一个流程图, 蓝色圆圈内是判断条件,绿色方框内是可以选择的算法:

[机器学习]Scikit-Learn学习笔记01——Scikit-Learn基础概念

图中,可以看到算法分为两类四大块



监督学习

每个数据对应一个 label

1.分类算法  

2.回归算法


非监督学习

只有数据,而没有与数据相对应得label


3.聚类算法

降维算法当数据集有很多很多属性的时候,可以通过 降维 算法把属性归纳起来.例如 20 个属性只变成 2 个,注意,这不是挑出 2 个,而是压缩成为 2 个,它们集合了 20 个属性的所有特征,相当于把重要的信息提取的更好,不重要的信息就不要了。在了解算法之后,然后看问题属于哪一类问题,是分类还是回归,还是聚类,就选择相应的算法。 当然还要考虑数据的大小,例如 100K 是一个阈值。如图中所显示的一样.