完成内容

《统计学习导论》第一遍学习已完成第一、二章，以及部分第三章；完成第二章课后习题（概念+应用）。

学习小结

本周四开始学习《统计学习导论》，虽然在上饶阿里云大数据实训中接触了部分统计学习的知识，但由于时间较短，仅仅局限于粗浅使用，在学习本书后对之前所学的一些方法有了更加系统的理解。

（第1章）导论

统计学习是一套以理解数据为目的的庞大工具集。这是本书第一章的第一句话，对此我深有体会，在之前的实训过程中，我在小组中也承担了部分数据处理及模型建立的工作，在建模之前需要做的就是理解数据，明白每个数据含义，通过各种工具和方法对其进行处理以达到期望目标。

统计学习的工具分为有指导的学习和无指导的学习。在有指导的学习工具中，数据分为输入和输出，主要用于预测模型的建立和给定一个或多个的输入来估计某个输出。无指导的学习工具中，数据仅有输入而无输出，主要是学习数据的关系和结构。对于有指导的学习两种用途我理解的不太清楚，我觉得这两种用途都是一个意思，不太明白其中区别。

在根据数据的不同，又可引出回归、分类、聚类的概念。回归和分类可根据输出变量数据类型来区分，连续型（在一定区间内可以连续取值）是回归，定性型（输出分为两种或多种）则是回归。聚类则是将一些相似的个体（在数据集中可看作一行数据）归纳到一起。

记号与简单的矩阵代数一节我粗略扫过去了。

（第2章）统计学习

变量分为输入和输出，在我看来一个数据集中具有结论性的变量为输出，其他为输入。两者关系可一般化为Y=f(X)+δ，Y为输出，f(X)我看做X与Y之间的联系，类似一元函数，δ为误差。什么情况下需要估计f，原因可分为预测和推断，预测需要f作为一个模型，在将输入变量输入模型后得出结果；推断则需要了解输入变量对输出变量产生的影响，此时则需要f有具体形式，便于理解两者之间的关系。到这里，再结合之前的回归和分类，我感觉明白了有指导的统计学习的两种用途，两者均可用于对结果的预测，但不同的是通过给定输入估计输出，以及分类和推断，更关注的是输入变量与输出之间的关系，就如函数中的系数一样。

而如何估计f，书中则分为参数方法和非参数方法。参数方法基于模型，常用方法是最小二乘法，类似于多元一次方程，这种方法优点在于具有较强的解释性，缺点则是与真正的f形式不一致；非参数方法则不需要对f的形式作出明确的假设，更多地拟合数据，优点在于更加贴近真实的f，缺点则是解释性弱，且需要大量数据。

接下来是预测精度和模型解释性的权衡，根据之前估计f的两种方法，可以明确选择自身所需。

再然后指导学习与无指导学习，回归与分类问题，在之前已理解。

在评价模型精度中，书中主要介绍了均方误差、偏差-方差和分类模型。在作业中绘制的偏差、方差、训练误差、测试误差和贝叶斯（或不可约）误差曲线图，加深了我的概念理解。
毕设学习之路
最后就是实验及习题了，实验是关于R语言的运用，做了习题后感觉对之前内容更加巩固了，看的时候可能体会不到，觉得自己理解了，做习题时才发现问题，作业还有代码题，我用R语言做了一遍，然后用python语言基本实现，其中有散点图的题目理解不太够。

毕设学习之路

12.26-12.29本周小结

完成内容

学习小结

（第1章）导论

（第2章）统计学习

相关推荐