数据挖掘与机器学习——线性回归(上)
题主最近开始整理数据挖掘的相关算法,其中涉及机器学习的相关内容。总得来说,这二者是相互交融的。
题主写本文的目的,一方面根据视频讲解的内容进行概述,另外一方面结合相关文献加深理解,同时希望各位大佬能够多多指正。
1.理论基础
概率与统计基础:正态分布(又名高斯分布、常态分布)、中心极限定理、最大似然估计、最小二乘法
2.核心概念与理解
在这里,题主并不过多赘述相关公式及其推导定理,而是着重讲述概念理解和意义,以此方便应用。但是其中理论推导其实还是需要好好理解。
线性回归:存在多个点,可回归到一条直线上(就像离家太久的孩子,总要回家)
线性:自变量最高次项不超过1
回归:当前点比较均匀(至少看上去)分布在直线的两侧
线性回归的公式一般可表述为:(可能有表述不合理的地方,多看对比不同)
其中y表示因变量(想要预测的),x表示多个自变量,表示自变量相应的系数,i表示第i条数据,
表示误差。
多个误差相加,根据中心极限定理,符合的服从正态分布。
中心极限定理:
假设{
}为独立同分布的随机变量序列,并有相同期望μ和方差
,则{
}服从中心极限定理,则当
····
服从N(nμ,n
)
服从N(0,1)
3.基本求解
基本求解依靠最小二乘法、最大似然估计来进行参数求解
(未完待续)
4.其他
有关应用,可查看文献:
[1]和旭冉.基于线性回归的一次性塑料废弃物处理量估算模型仿真[J].信息系统工程,2020(05):101-102.
文献内容还是比较简单的,可以大体看看公式,了解其基本应用