sklearn中的 Pipeline 类

官方文档：API

Pipeline执行流程的分析

管道 Pipeline按顺序应用列表转换和最终的估计量。中间步骤的管道必须“转换”,也就是说,他们必须实现拟合和转换方法。最后估计只需要实现。在 Pipeline里，转化器可以使用内存来进行缓存。

管道 Pipeline的目的就是可以组装几个步骤旨在在一起而设置不同的参数。为此,可以为各个步骤设置参数名称。

流水线Pipeline机制在机器学习算法中得以应用的根源在于，参数集在新数据集（比如测试集）上的重复使用。

流水线机制实现了对全部步骤的流式化封装和管理（streaming workflows with pipelines）。

注意：流水线机制更像是编程技巧的创新，而非算法的创新。

Pipeline 的中间过程由scikit-learn相适配的转换器（transformer）构成，最后一步是一个estimator。比如上述的代码，StandardScaler和PCA transformer 构成intermediate steps，LogisticRegression 作为最终的estimator。

（注：最后一步一定是estimator）

sklearn中的 Pipeline 类

pipeline 与深度神经网络的multi-layers

只不过步骤（step）的概念换成了层（layer）的概念，甚至the last step 和输出层的含义都是一样的。

参考资料：https://blog.****.net/lanchunhui/article/details/50521648

sklearn中的 Pipeline 类

pipeline 与深度神经网络的multi-layers

相关推荐