ML笔记 - 回归分析概述

基本概念

变量之间的非严格函数关系: 变量x、y之间存在某种密切的联系,但并非严格的函数关系(非确定性关系)。
回归: 回归是处理两个或两个以上变量之间互相依赖的定量关系的一种统计方法和技术,变量之间的关系并非确定的函数关系,通过一定的概率分布来描述。
线性和非线性: 线性(Linear)的严格定义是一种映射关系,其映射关系满足可加性和齐次性。通俗来讲就是两个变量存在一次方函数关系,在平面坐标系中表现为一条直线。不满足线性即为非线性(non-linear)。
线性回归(Linear Regression): 在回归分析中,如果自变量和因变量之间存在着线性关系,则被称作线性回归。如果只有一个因变量和一个自变量,则被称作一元线性回归,如果有一个因变量和多个自变量,则被称作多元回归。

回归模型的一般形式

ML笔记 - 回归分析概述

回归模型的基本前置假设

  • 零均值:随机误差项均值为0,保证未考虑的因素对被解释变量没有系统性的影响。
  • 同方差:随机误差项方差相同,在给定x的情况下,随机误差的条件方差为某个常数。
  • 无自相关:两个随机误差之间不相关。
  • 正态分布:随机误差符合正态分布。
  • 解释变量x1、x2、x3、… 、xn是非随机变量,其观测值是常数。
  • 解释变量之间不存在精确的线性关系。
  • 样本个数要多于解释变量的个数。

建立回归模型的流程

需求分析,明确变量

了解相关需求,明确场景,清楚需要解释的指标(因变量),并根据相关业务知识选取与之有关的变量作为解释变量(自变量)。

数据收集加工

根据上一步分析得到的解释变量,去收集相关的数据(时序数据、截面数据等),对得到的数据进行清洗、加工,并根据数据情况调整解释变量,并判断是否满足基本假设。

确定回归模型

了解数据集,使用绘图工具绘制变量样本散点图或使用其他分析工具分析变量的关系,根据结果选择回归模型,如:线性回归模型、指数形式的回归模型等。

模型参数估计

模型确定后,基于收集、整理的样本数据,估计模型中的相关参数。最常用的方法是最小二乘法(最小平方法),在不满足基本假设的情况下还会采取岭回归、主成分回归、偏最小二乘法等。
最小二乘法:也叫最小平方法,通过最小化误差的平方和寻找数据的最佳函数匹配的方法。
ML笔记 - 回归分析概述

模型检验优化

参数确定后,得到模型。此时需要对模型进行统计意义上的检验,包括对回归方程的显著性检验、回归系数的显著性检验、拟合优度检验、异方差检验、多重共线性检验等。还需要结合实际场景,判断该模型是否具有实际意义。

模型部署应用

模型检验通过后,可以使用模型进行相关的分析、应用,包括因素分析、控制、预测等。

  • 变量关系:确定几个特定变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式。
  • 因素分析:回归模型对解释变量和被解释变量之间的关系进行了度量,从各个解释变量的系数可以发现各因素对最终结果的影响大小。
  • 控制:给定被解释变量的值,根据模型来控制解释变量的值。
  • 预测:根据回归模型,可以基于已知的一个或多个变量预测另一个变量的取值,并可以了解这个取值精确到什么程度。

回归模型的特点

回归模型在很多领域都有广泛的应用,具有以下优点:

  • 模型简单,建模和应用都比较容易
  • 有坚实的统计理论支撑
  • 定量分析各变量之间的关系
  • 模型预测结果可以通过误差分析精确了解

存在的缺点:

  • 假设条件比较多且相对严格
  • 变量选择对模型影响较大