总结

总结K选大了,容易过拟合;小了,容易欠拟合。
总结线性回归的重点是:线性回归的推导(一种是梯度下降的推导,一种是最小二乘的推导)
总结逻辑回归是一个重点(当不知道用什么算法的时候,先用逻辑回归),机器学习中,特征越多,越能描述一个事物
总结多重线性:相关性很大
总结总结总结总结总结总结总结小规模数据:几万,几十万都算小规模
pyspark总结spark(pyspark)处理大规模数据集
总结随机森林更多的用来去噪声,选特征;算法,模型处理的好坏,跟数据有很大关系。数据一定要预处理。
总结总结svm用的不是很多
总结数据结构 图的结构+谱聚类(tensorflow)

自行了解:

关联分析算法—Aprior算法,EM算法,PageRank算法。了解它们做什么事情的。

选择算法原因:

1,评估测量结果,2,优缺点
算法的原理,公式要记住,面试时推导一般不会问
总结