[机器学习]Scikit-Learn学习笔记01——Scikit-Learn基础概念
概念
1.sklearn是一个Python第三方提供的非常强力的机器学习库
2.scikit-learn是一个基于NumPy,SciPy,Matplotlib的开源学习工具包
3. 在数据量不是过大的情况下,可以解决大部分问题.
安装
安装 Scikit-learn (sklearn) 最简单的方法就是使用 pip或者用PyCharm或者 Anaconda 安装它.在安装前,要确保电脑已经安装了Numpy和Scipy
PIP使用方法
# python 2+ 版本复制:pip install -U scikit-learn
# python 3+ 版本复制:pip3 install -U scikit-learn
使用方法
不要直接去用,先了解一下都有什么模型方法,然后选择适当的方法,来达到你的目标。Sklearn 官网提供了一个流程图, 蓝色圆圈内是判断条件,绿色方框内是可以选择的算法:
图中,可以看到算法分为两类四大块
监督学习
每个数据对应一个 label
1.分类算法
2.回归算法
非监督学习
只有数据,而没有与数据相对应得label
3.聚类算法
降维算法当数据集有很多很多属性的时候,可以通过 降维 算法把属性归纳起来.例如 20 个属性只变成 2 个,注意,这不是挑出 2 个,而是压缩成为 2 个,它们集合了 20 个属性的所有特征,相当于把重要的信息提取的更好,不重要的信息就不要了。在了解算法之后,然后看问题属于哪一类问题,是分类还是回归,还是聚类,就选择相应的算法。 当然还要考虑数据的大小,例如 100K 是一个阈值。如图中所显示的一样.