数据挖掘与机器学习——线性回归(上)

题主最近开始整理数据挖掘的相关算法,其中涉及机器学习的相关内容。总得来说,这二者是相互交融的。

题主写本文的目的,一方面根据视频讲解的内容进行概述,另外一方面结合相关文献加深理解,同时希望各位大佬能够多多指正。

1.理论基础

概率与统计基础:正态分布(又名高斯分布、常态分布)、中心极限定理、最大似然估计、最小二乘法

2.核心概念与理解

在这里,题主并不过多赘述相关公式及其推导定理,而是着重讲述概念理解和意义,以此方便应用。但是其中理论推导其实还是需要好好理解。

线性回归:存在多个点,可回归到一条直线上(就像离家太久的孩子,总要回家)

线性:自变量最高次项不超过1

回归:当前点比较均匀(至少看上去)分布在直线的两侧

线性回归的公式一般可表述为:数据挖掘与机器学习——线性回归(上)(可能有表述不合理的地方,多看对比不同)

其中y表示因变量(想要预测的),x表示多个自变量,数据挖掘与机器学习——线性回归(上)表示自变量相应的系数,i表示第i条数据,数据挖掘与机器学习——线性回归(上)表示误差。

多个误差相加,根据中心极限定理,符合的服从正态分布。

中心极限定理:

假设{数据挖掘与机器学习——线性回归(上)}为独立同分布的随机变量序列,并有相同期望μ和方差数据挖掘与机器学习——线性回归(上),则{数据挖掘与机器学习——线性回归(上)}服从中心极限定理,则当

数据挖掘与机器学习——线性回归(上)····数据挖掘与机器学习——线性回归(上)服从N(nμ,n数据挖掘与机器学习——线性回归(上)

数据挖掘与机器学习——线性回归(上)服从N(0,1)

 

3.基本求解 

基本求解依靠最小二乘法、最大似然估计来进行参数求解

(未完待续)

4.其他

有关应用,可查看文献:
[1]和旭冉.基于线性回归的一次性塑料废弃物处理量估算模型仿真[J].信息系统工程,2020(05):101-102.

文献内容还是比较简单的,可以大体看看公式,了解其基本应用

数据挖掘与机器学习——线性回归(上)