总结
K选大了,容易过拟合;小了,容易欠拟合。
线性回归的重点是:线性回归的推导(一种是梯度下降的推导,一种是最小二乘的推导)
逻辑回归是一个重点(当不知道用什么算法的时候,先用逻辑回归),机器学习中,特征越多,越能描述一个事物
多重线性:相关性很大
小规模数据:几万,几十万都算小规模
pysparkspark(pyspark)处理大规模数据集
随机森林更多的用来去噪声,选特征;算法,模型处理的好坏,跟数据有很大关系。数据一定要预处理。
svm用的不是很多
数据结构 图的结构+谱聚类(tensorflow)
自行了解:
关联分析算法—Aprior算法,EM算法,PageRank算法。了解它们做什么事情的。
选择算法原因:
1,评估测量结果,2,优缺点
算法的原理,公式要记住,面试时推导一般不会问