《商务与经济统计》(四)

第十六章:回归分析:建立模型

《商务与经济统计》(四)

1、一般线性模型《商务与经济统计》(四),式中每一个自变量zj(j=1,2…,p)都是x1,x2,……xk的函数。

《商务与经济统计》(四)被称为具有一个预测变量的简单一阶模型;《商务与经济统计》(四)被称为具有一个预测变量的二阶模型。

注:“一般线性模型”仅指的是β0、β1…,βp全是一次幂,并不意味着y和这些xi之间存在线性关系

《商务与经济统计》(四)

当两个变量之间存在交互作用时,我们不可能独立于其他变量之外,单独地考察一个变量对响应变量y的影响。

涉及变量之间的变换:①、比例变换:如非常数方差存在时用“取对数”来修正;②、倒数变换:用1/y作应变量来代替y。

③、指数模型的变换:形如《商务与经济统计》(四)的指数模型可变换成《商务与经济统计》(四)

指数模型属于内线型的非线性模型(参数(β0、β1、…、βp)的幂次超过一次的模型)。

2、如何确定应该增加或者删减一个变量:F检验或者t检验。

《商务与经济统计》(四)

原多元回归模型:《商务与经济统计》(四),现增加p-q个自变量,

变成:《商务与经济统计》(四)

为了检验增加的自变量《商务与经济统计》(四)是否在统计上是显著的,提出原假设和备择假设。

《商务与经济统计》(四)

给出F统计量:

《商务与经济统计》(四)《商务与经济统计》(四)


将计算得到的F统计量的值与【分子自由度:p-q,分母自由度:n-p-1的】F分布表的上侧分位数Fα比较。

若:F>Fα,则拒绝H0,结论:增加的这组自变量在统计上是显著的。

3、

《商务与经济统计》(四)


4、变量选择方法:①、逐步回归②、前向选择③、后向消元④、最佳子集回归。

前3种方法通过“反复迭代”,每一步只增加or删除一个自变量(选择自变量的准则就是“F统计量”),不断对新的回归模型进行评价;这种迭代过程会一直持续下去直到找不到一个更好的模型为止。

    例如:考虑增加x2到包含x1的模型中或从包含x1和x2的模型中删除x2,为了检验增加/删除x2在统计上是否显著,假设如下:

《商务与经济统计》(四),相应的F统计量应为:

可以利用这个统计量来确定x2的存在是否会引起误差平方和有一个显著的减少。

对应这个F统计量的p-值也可以用来拒绝:如果p-值≤α,则拒绝H0。

第4种方法(最佳子集回归)不是单变量一次性方法,是要对包含不同的自变量子集的回归模型进行评价。

①、逐步回归:逐步回归法可以认为是向前引入法与向后剔除法的综合。逐步回归法克服了向前引入法与向后剔除法的缺点,吸收两种方法的优点。逐步回归法是以向前引入为主,变量可进可出的变量选取方法。它的基本思想是,当被选入的变量在新变量引入后变得不重要时,可以将其剔除,而被剔除的变量当它在新变量引入后变得重要时,又可以重新选入方程。

《商务与经济统计》(四)

②、前向选择:从模型中没有自变量开始,一次增加一个变量,一旦一个自变量进入模型中,将不允许删除。

③、后向消元:从包含所有自变量的模型开始。一次删除一个,一旦一个自变量从模型中删除,将不允许再次进入。

前向选择与后向消元是建模过程的两个极端,两种方法可能得到同样的估计回归方程,也可能得到不同的。

④、最佳子集回归:可以借助软件实现。

5、序列相关性/自相关性:yt表示y在时期t的值,而yt的值又依赖y在以前时期的值——这样的一种现象。

《商务与经济统计》(四)

一阶自相关性:y在t时期的值依赖于y在t-1时期的值【t时期的误差项也依赖于t-1时期的误差项】。

《商务与经济统计》(四)

《商务与经济统计》(四)

当数据存在自相关性时,如果根据假设的回归模型进行统计显著性检验,就有可能发生严重错误。【因此重点是:检测出自相关性的存在并作出适当修正】。用杜宾-瓦特森统计量来检验一阶自相关性。

假设误差项的值不独立,相互依赖关系为:《商务与经济统计》(四)式中,-1<ρ<1,称为自协方差系数/一阶自相关系数,Zt是一个均值为0、方差为σ2的独立的正态分布随机变量。【如果ρ=0,误差项之间不相关,回归模型的假定被满足;ρ>0,正自相关;ρ<0,负自相关。】

杜宾-瓦特森统计量《商务与经济统计》(四)式中,《商务与经济统计》(四)表示第i个残差。【如果残差相邻值较小(正自相关性)则杜宾-瓦特森检验统计量值比较小;反之,则比较大。】

《商务与经济统计》(四)

杜宾-瓦特森统计量的取值介于【0,4】,并且在0~4之间有两个值(dL和dU)表示了不存在自相关性的范围。

《商务与经济统计》(四)

《商务与经济统计》(四)

第十七章:时间序列分析及预测

《商务与经济统计》(四)

使用被预测变量的过去历史数据值进行预测未来值的方法称为时间序列法,历史数据即称为时间序列。时间序列分析的目的是在历史资料或时间序列中发现规律性的模式,然后将这个模式外推到未来。这种预测仅仅依赖于变量的过去值和(或)过去的预测误差

因果预测法:假定一个因果关系,将想要预测的时间序列的值作为应变量,其它相关的变量作为自变量。如预测销售量(Y)和广告支出(X)的关系。

时间序列法:将时间视为自变量,时间序列视为应变量。时间序列回归是指自变量是时间的回归分析应用。

1、时间序列的模式:水平模式、趋势模式、季节模式、趋势季节模式、循环模式。

《商务与经济统计》(四)

《商务与经济统计》(四)《商务与经济统计》(四)《商务与经济统计》(四)

2、朴素预测法:用当前周的数据作为下一周的预测值;

过去数值平均数法:所有历史数据的均值作为下一期的预测值;

预测误差:预测误差=实际值-预测值(有正有负,可能相互抵消);

百分数误差:预测误差/实际值*100%

平均绝对误差MAE(mean absolute error):预测误差绝对值的平均数【注:如果有12组数据,则除以11】。

均方误差MSE(mean squared error):预测误差平方和的平均数。

平均绝对百分数误差MAPE(mean absolute percentage error):百分数误差的绝对值的平均数。

3、水平模式时间序列的三种预测方法:移动平均法、加权移动平均法、指数平滑法。

①、移动平均法:使用时间序列中最近k期数据值的平均数作为下一时期的预测值。

《商务与经济统计》(四)

②、加权移动平均法:一般地,最近时期的观测值有较大的权重,较远时期的观测值则权重较小。

③、指数平滑法:t+1期的预测值是t期的实际值&预测值的加权平均。

《商务与经济统计》(四)

对公式进行变形,得到:《商务与经济统计》(四)【若时间序列包含大量随机波动,则选择较小平滑常数α;大的α的优点是迅速调整预测,使得预测对改变的条件反应更迅速;大多数预测误差由随机波动引起的,一般不希望对预测做出过度的反应和过快的调整。确定α合理值的准则:选择MSE达到最小的α值

4、趋势模式时间序列的预测方法

①、用简单线性模型预测具有线性趋势的时间序列:

《商务与经济统计》(四)《商务与经济统计》(四)

②、Holt线性指数平滑:

《商务与经济统计》(四)

③、非线性趋势回归:a)、二次趋势方程:《商务与经济统计》(四)    b)、指数趋势方程:《商务与经济统计》(四)

《商务与经济统计》(四)5、季节模式时间序列的预测方法:

①没有趋势的季节性:
《商务与经济统计》(四)

②、季节性&趋势:将季节性的虚拟变量方法和处理线性趋势的回归方法结合起来。

比如:《商务与经济统计》(四)

《商务与经济统计》(四)

6、时间序列分解法:将一个时间序列分隔huo分解出季节、趋势和不规则成分。

《商务与经济统计》(四)《商务与经济统计》(四)《商务与经济统计》(四)加法模型适用于季节影响不依赖于时间序列水平的情形【前期季节影响的规模和后期季节影响的规模相同】;

乘法模型适用于季节影响随时间发生改变的情形【如长期线性趋势随着销售量的增加逐渐增大】

《商务与经济统计》(四)

乘法模型:①、计算季节指数;②、消除季节影响的时间序列;③、利用消除季节影响的时间序列确定趋势【方法同4点】;④、用季节指数调整消除季节影响的趋势推测值【趋势值*相应的季节指数】。

《商务与经济统计》(四)

第十八章:非参数方法

《商务与经济统计》(四)

(前几章)统计推断的参数方法:先假定总体的概率分布服从正态分布,基于这个假定,得到用于推断一个或多个总体参数【如总体均值μ、总体标准差σ】的抽样分布,【第九章中,介绍了假定总体服从正态分布,其参数μ和σ未知的情况下对总体均值进行统计推断的方法。用样本标准差s来估计总体标准差σ,对总体均值进行推断的统计量服从t分布。因此,对正太总体均值可以用t分布确定置信区间和进行检验。】

对总体推断的非参数方法,对总体概率分布形式的假定没有要求,也称为无分布方法。用于非参数方法的计算一般与分类型数据有关,即使数据是数值型的,为进行非参数检验,也要讲其转化为分类型数据。

1、符号检验(提供了检验总体中位数假设的非参数方法):将每个样本观测值与总体中位数的假设值进行比较,,用+表示;,用-表示;如果观测值=中位数,则剔除该数据

+/-的分配符合二项分布,且试验是独立的, 令p表示加号的概率, 如果H0成立,则p=0.5,因此可将假设转化为二项概率p的假设。

①、对总体中位数假设检验:a)、建立假设:《商务与经济统计》(四)转化为关于二项概率p的假设《商务与经济统计》(四)

b)、对于样本容量n≤20时,可以查到二项分布的概率值,此时如果观测到的加号的个数为q,则计算(在n,p=0.5下)加号≥q的概率:《商务与经济统计》(四)。又因为是双侧检验,所以将计算得到的概率值*2,最终若p-值<α,则拒绝H0。

如果遇到单侧检验【如H0:中位数≤450,Ha>450,则p-值等于样本中加号个数≥某个值的二项概率;】。

当样本容量比较大时(一般>20),二项分布近似正态分布。

《商务与经济统计》(四)

∵二项分布是离散型的,而正态分布是连续形的,∴用一个区间(q-0.5,q+0.5)上的正态概率计算个数为q的二项概率(0.5称为连续性校正因子)。最后利用正态概率分布表计算得到p-值。

②、匹配样本的假设检验:非参数符号检验分析分类性数据(如偏好的差异),加号用来表示对A的偏好,负号表示对B的偏好。

2、威尔科克森符号秩检验:检验使用数量型数据,但不要求配对观测值之差(一个人用两种方法的差)服从正态分布,只需要假定配对观测值之差具有对称的分布。

【第10章中,介绍的匹配样本实验设计,n个实验单位中的每一个提供一对观测值(1个人既用方法1又用法2),其中一个来自总体1,另个来自总体2。要求数据为数量型,且假定了配对观测值之差服从正态分布,利用t分布对两个总体均值之差进行推断。】

①、建立假设:《商务与经济统计》(四)剔除差异为0的数据。

②、计算差的绝对值,再计算秩:将差的绝对值由低到高排序,最低为1,最高为n(样本容量)。【注:如果出现相同的值,则秩为他们的平均(比如有两个值相等,原来的秩应该是10和11,实际上要统一都为10.5)】

③、将秩赋值(+/-):原来的差值为负值,则秩为-,差为正值,则秩为+。、

检验统计量:《商务与经济统计》(四) (指正的秩之和)

《商务与经济统计》(四)

:如果总体满足对称分布,那么威尔科克森符号秩检验时总体中位数的首选非参数检验;

但是,如果总体是偏斜分布,则首选1中的符号检验。】

3、曼-惠特尼-威尔科克森检验

《商务与经济统计》(四)

4、克鲁斯卡尔-沃利斯检验:对来自k个总体的k个独立随机变量进行非参数方法的假设检验。既可使用顺序性数据也可使用数量型数据,并且不需要假定总体服从正态分布。

假设的一般形式:《商务与经济统计》(四) 利用卡方分布表来确定检验的p-值。(H值要介于两个之间)

《商务与经济统计》(四)

5、斯皮尔曼秩相关系数:

《商务与经济统计》(四)

《商务与经济统计》(四)

《商务与经济统计》(四)

第十九章:质量管理的统计方法

《商务与经济统计》(四)

控制图对确定 产品中的质量变异是来源于一般原因(在控)还是来源于一般原因(失控),提供了一个做出决策的基础。

《商务与经济统计》(四)

1、均值控制图:《商务与经济统计》(四)

①、过程均值和标准差已知《商务与经济统计》(四)的期望为总体均值μ,对于容量为n的样本,《商务与经济统计》(四)的标准差为《商务与经济统计》(四),当x服从正太分布时,对于任何容量的样本,《商务与经济统计》(四)的抽样分布也服从正态,即《商务与经济统计》(四)的抽样分布服从均值为μ,标准差为《商务与经济统计》(四)的正态分布。

此时的控制限:《商务与经济统计》(四)

②、过程均值和标准差未知:实践中,因为极差容易计算,且可以提供过程标准差很好的估计,常用来代替标准差监测过程的变异性。

定理:过程标准差σ的一个估计量为平均极差《商务与经济统计》(四)除以《商务与经济统计》(四)《商务与经济统计》(四)是一个依赖于样本容量n的常数。

《商务与经济统计》(四),其中平均极差《商务与经济统计》(四)

此时:中心线:《商务与经济统计》(四)

控制限:《商务与经济统计》(四)【注:A2是仅依赖于样本容量的常数】

2、极差控制图/R控制图:将样本的极差看做一个有均值(平均极差《商务与经济统计》(四))和标准差(《商务与经济统计》(四),d2、d3仅依赖于样本容量的常数)的随机变量。

此时,《商务与经济统计》(四)《商务与经济统计》(四)


3、p控制图:利用有缺陷项目的比例《商务与经济统计》(四)构造的控制图。

《商务与经济统计》(四)的抽样分布可以用来确定《商务与经济统计》(四)值所期望的变异性。对于容量为n的样本,《商务与经济统计》(四)的标准差(又称比例的标准误差)为《商务与经济统计》(四)

当样本容量充分大(满足np≥5,n(1-p)≥5即可)时,《商务与经济统计》(四)的抽样分布近似正态分布。

此时的控制限:《商务与经济统计》(四)《商务与经济统计》(四)

4、np控制图:当样本容量充分大(满足np≥5,n(1-p)≥5即可),在一个容量为n的样本中观测到有缺陷项目数的分布可以近似服从均值为np,标准差为《商务与经济统计》(四)的正态分布。

《商务与经济统计》(四)

5、接受抽样:不同于百分百检测;费用少、搬运少,损害小、人员少,且是破坏性检验的唯一方法。

《商务与经济统计》(四)

接收准则c:在可以接受的样本批次中发现有缺陷项目的最大数量。

《商务与经济统计》(四)

《商务与经济统计》(四)

《商务与经济统计》(四)

《商务与经济统计》(四)

第二十章:指数

选择商品要有代表性,基期选择不应与报告期太远,删除因品质改变而导致价格上涨的部分。

《商务与经济统计》(四)