毕设学习之路

完成内容

《统计学习导论》第一遍学习已完成第一、二章,以及部分第三章;完成第二章课后习题(概念+应用)。

学习小结

本周四开始学习《统计学习导论》,虽然在上饶阿里云大数据实训中接触了部分统计学习的知识,但由于时间较短,仅仅局限于粗浅使用,在学习本书后对之前所学的一些方法有了更加系统的理解。

(第1章)导论

统计学习是一套以理解数据为目的的庞大工具集。这是本书第一章的第一句话,对此我深有体会,在之前的实训过程中,我在小组中也承担了部分数据处理及模型建立的工作,在建模之前需要做的就是理解数据,明白每个数据含义,通过各种工具和方法对其进行处理以达到期望目标。

统计学习的工具分为有指导的学习和无指导的学习。在有指导的学习工具中,数据分为输入和输出,主要用于预测模型的建立和给定一个或多个的输入来估计某个输出。无指导的学习工具中,数据仅有输入而无输出,主要是学习数据的关系和结构。对于有指导的学习两种用途我理解的不太清楚,我觉得这两种用途都是一个意思,不太明白其中区别。

在根据数据的不同,又可引出回归分类聚类的概念。回归和分类可根据输出变量数据类型来区分,连续型(在一定区间内可以连续取值)是回归,定性型(输出分为两种或多种)则是回归。聚类则是将一些相似的个体(在数据集中可看作一行数据)归纳到一起。

记号与简单的矩阵代数一节我粗略扫过去了。

(第2章)统计学习

变量分为输入和输出,在我看来一个数据集中具有结论性的变量为输出,其他为输入。两者关系可一般化为Y=f(X)+δ,Y为输出,f(X)我看做X与Y之间的联系,类似一元函数,δ为误差。什么情况下需要估计f,原因可分为预测和推断,预测需要f作为一个模型,在将输入变量输入模型后得出结果;推断则需要了解输入变量对输出变量产生的影响,此时则需要f有具体形式,便于理解两者之间的关系。到这里,再结合之前的回归和分类,我感觉明白了有指导的统计学习的两种用途,两者均可用于对结果的预测,但不同的是通过给定输入估计输出,以及分类和推断,更关注的是输入变量与输出之间的关系,就如函数中的系数一样。

而如何估计f,书中则分为参数方法和非参数方法。参数方法基于模型,常用方法是最小二乘法,类似于多元一次方程,这种方法优点在于具有较强的解释性,缺点则是与真正的f形式不一致;非参数方法则不需要对f的形式作出明确的假设,更多地拟合数据,优点在于更加贴近真实的f,缺点则是解释性弱,且需要大量数据。

接下来是预测精度和模型解释性的权衡,根据之前估计f的两种方法,可以明确选择自身所需。

再然后指导学习与无指导学习,回归与分类问题,在之前已理解。

在评价模型精度中,书中主要介绍了均方误差、偏差-方差和分类模型。在作业中绘制的偏差、方差、训练误差、测试误差和贝叶斯(或不可约)误差曲线图,加深了我的概念理解。
毕设学习之路
最后就是实验及习题了,实验是关于R语言的运用,做了习题后感觉对之前内容更加巩固了,看的时候可能体会不到,觉得自己理解了,做习题时才发现问题,作业还有代码题,我用R语言做了一遍,然后用python语言基本实现,其中有散点图的题目理解不太够。