数据分析方法,寻找规律的第一步,聚类分析法!第3辑
逻辑关系——寻找事物之间的因果规律
系列文章总览:
7.1相关性与相关系数分析
7.2事物之间的逻辑关系与科学规律
7.3果因关系与因果关系,看不见的事物发展逻辑
7.4事物发展规律的复杂性与科学抽象
7.5因果关系与回归分析
7.6逻辑回归
7.7关联与共生——现象与规律的探寻
数据分析的核心目的是掌握事物的发展规律。只有掌握了事物的发展规律,我们才能更好地掌控事物,让事物按照我们预期的方向去发展。我们从数据中掌握了事物发展的规律,就可以按照这个规律来创造未来,从而让事物按照我们预期的方向发生和发展。、
7.5 因果关系与回归分析
在了解了事物之间可能存在的逻辑关系之后,就可以采用量化的方法来评价这种逻辑关系的强弱。例如我们通过打广告来提升销售额,然后统计每个月的广告费和销售额之间的关系,如果相关性较高,则说明广告效果好;如果相关性较低,则说明广告效果不好。我们可以通过不同的方式来打广告,并监测每种广告方式的有效性,如果每次我们都是通过多种途径打广告,那么也可以采用一种方式来统计销售额和每种广告费用之间的关系。
例如我们通过电视和广播电台来打广告,然后统计了20个月的广告费用投入和销售额产出,得到如下表所示的数据。
如果我们构建一个数学模型,销售额产出Y是电视广告X1和广播广告X2的函数,则可以表示为:
Y=f(X1,X2)
如果用线性回归的模式来构建这个函数,则会变成:
Y=aX1+bX2+c
其中,
Y:销售额产出;
X1:电视广告投入费用;
X2:广播广告投入费用;
a:电视广告投入效果系数;
b:广播广告投入效果系数;
c:一个常数。
这样就构建了一个线性规划的数学模型,可以用Excel的回归分析来求解,为了尽可能了解求解过程中的内容,我们设定了更多的选项,如下图所示。
输出的结果如下图所示。
通过这个结果,我们可以得到广告费用和销售额之间的公式:
Y销售额=149.85+12.04X1,电视广告费+23.36X2,广播广告费
而截距149.85校验的p-value=0.35,说明这个截距变化很大,稳定性很差,校验不通过,是不可信的,但X1和X2的校验p-value都非常小,都小于0.05,则说明这两个系数是可信的。这是对数据比较简单的解读。当然具体的解读和说明需要统计学方面的知识。
X1和X2的系数分别是12.04和23.36,这意味着每投入1万元的电视广告费用可以带动销售额增长12.04万元;每投入1万元广播广告费用可以带动销售额增长23.36万元。从这两个系数可以判定广播广告效果比电视广告效果要好很多。
对广告效果的评价只能在某个范围内适用,并且广告效果会随着广告费用投入的增多而递减。
也可以用线性回归的方式来研究生产产值与需要的工人数量的关系,从而来评价或者预测不同生产产值下大概需要的工人数量,以便于人力资源部门在工人招募和调动时进行预测。
下面是7.4节中的案例,其中2010年采用的是旧的管理模式,而2011年采用了临时工的管理模式。
下面采用线性回归方法分别计算2010年和2011年的生产产值与工人数量之间的关系。我们构建的数学模型是:
Y产值=a+bX工人数量
得到的结果如下图所示。
从这两年的回归对比上可以看出,2011年的回归校验是通过的,无论是截距和工人数量的系数,其p-value都小于0.05,可以认定具有回归规律。但对于2010年的回归校验因为两者的相关性太差,导致校验不能通过。在2011年的管理模式下,我们得到的数学模型是:
Y产值=-1938+0.67X工人数量
在2011年的管理模式下,要预测不同订单量下的工人数量可以这样计算:
X工人数量=(Y产值+1938)÷0.67
从这个公式中我们可以看到,当产值为0时,工人数量为2891人。所以,产值规模越大,人员越集约,而当产值下降时,工厂的效率将大打折扣。
当然,此模型的适用条件是工人数量在4000~6000人,而在人数接近0的时候是否还成立,仍然需要验证和研究,这个结论只是理论上的推断,仅供参考。
全文摘自《企业经营数据分析-思路、方法、应用与工具》赵兴峰著
该文转载已取得作者认可
版权说明:版权所有归明悦数据所有,如需转载请联系我们,我们将在第一时间处理,或请注明内容出处(《企业经营数据分析》赵兴峰著),非常感谢!【往期内容已在(明悦数据)公众号同步发布】
下期内容更实战!