[机器学习]Scikit-Learn学习笔记01——Scikit-Learn基础概念

概念

1.sklearn是一个Python第三方提供的非常强力的机器学习库

2.scikit-learn是一个基于NumPy，SciPy，Matplotlib的开源学习工具包

3. 在数据量不是过大的情况下，可以解决大部分问题.

安装

安装 Scikit-learn (sklearn) 最简单的方法就是使用 pip或者用PyCharm或者 Anaconda 安装它.在安装前,要确保电脑已经安装了Numpy和Scipy

PIP使用方法

# python 2+ 版本复制:pip install -U scikit-learn

# python 3+ 版本复制:pip3 install -U scikit-learn

使用方法

不要直接去用，先了解一下都有什么模型方法，然后选择适当的方法，来达到你的目标。Sklearn 官网提供了一个流程图，蓝色圆圈内是判断条件，绿色方框内是可以选择的算法：

[机器学习]Scikit-Learn学习笔记01——Scikit-Learn基础概念

图中,可以看到算法分为两类四大块

监督学习

每个数据对应一个 label

1.分类算法

2.回归算法

非监督学习

只有数据,而没有与数据相对应得label

3.聚类算法

降维算法当数据集有很多很多属性的时候，可以通过降维算法把属性归纳起来.例如 20 个属性只变成 2 个，注意，这不是挑出 2 个，而是压缩成为 2 个，它们集合了 20 个属性的所有特征，相当于把重要的信息提取的更好，不重要的信息就不要了。在了解算法之后,然后看问题属于哪一类问题，是分类还是回归，还是聚类，就选择相应的算法。当然还要考虑数据的大小，例如 100K 是一个阈值。如图中所显示的一样.

[机器学习]Scikit-Learn学习笔记01——Scikit-Learn基础概念

相关推荐