总结 - 源码之家

K选大了，容易过拟合；小了，容易欠拟合。
线性回归的重点是：线性回归的推导（一种是梯度下降的推导，一种是最小二乘的推导）
逻辑回归是一个重点（当不知道用什么算法的时候，先用逻辑回归），机器学习中，特征越多，越能描述一个事物
多重线性：相关性很大
小规模数据：几万，几十万都算小规模
pysparkspark（pyspark）处理大规模数据集
随机森林更多的用来去噪声，选特征；算法，模型处理的好坏，跟数据有很大关系。数据一定要预处理。
svm用的不是很多
数据结构图的结构+谱聚类（tensorflow）