t检验

啤酒厂提高亩产问题

t检验历史问题

问题分析

啤酒,主要原料是大麦,啤酒厂肯定是希望尽力提高亩产。

健力士公司有下面两块麦田:

麦田A采用传统A工艺进行种植,平均每株大麦可以结100粒穗子

麦田B采用改进过的B工艺种植,健力士公司想知道“B工艺是否提高了产量”

公司从B工艺的麦田中采样了5株大麦,样本均值为120粒穗子


假设检验

  • 假设:B工艺没有提高产量,即AB下的麦穗服从同一分布。

因此,要进行检验的是样本均值为120的概率高还是不高

首先可以知道的:

  • A工艺下的单株麦穗个数服从:X(μ=100,σ2)X\sim(\mu=100,\sigma^2),即已知期望,未知方差。
  • B工艺下的麦田样本均值x=120\overline x = 120,采样了5株。

根据正态分布图像性质:

  • 跨度是由标准差σ\sigma决定。

令A的正态分布X(μ=100,σ2)X\sim(\mu=100,\sigma^2)中标准差σ=2\sigma=2

随机选取五个样本令其平均值为120,、

t检验

可见该分布下平均值为120的概率是非常低的。

  • 也就是说AB服从同一个分布的可能性很低。
  • 我们有很大把握可以认为B工艺真正提高了产量。

增加其跨度,再随机选取五个样本:

t检验

可见该分布下平均值为120的概率并不低。

  • 也就是说AB服从同一个分布的可能性并不低。
  • 我们没有十足的把握可以认为B工艺真正提高了产量。

总结:除了最初的比较两个均值的差xμ0\overline x -\mu_0,还有标准差$\sigma $造成了影响。与此同时,样本数也会影响结果(大数定律)。

但是A田的标准差σ\sigma未知,我们假设AB同分布,即用样本标准差SS

综合考虑三个量SXnS、\overline X、n,构造了统计量:
t=xμ0s/n t=\frac{\overline x -\mu_0}{s/\sqrt{n}}
那么该统计量则说明了AB工艺导致的差别越大,越有可能说明B工艺提高了产量。

tt是服从自由度为n1n-1tt分布的。

假设检验中很重要的一个量-p值便是指求出来的t之后的曲线面积:t检验

如图中所示,t求出来为4,则p值为t=4后的曲线面积。查表得到p=0.01。

此时,如果我们要求5%的显著水平的话α=5\alpha=5,表示原假设为正确时人们却把它拒绝了的概率),那么就可以拒绝原假设AB同分布,也就是拒绝没有提高产量这个假设。

参考资料:马同学高等数学公众号内容
https://mp.weixin.qq.com/s?__biz=MzIyMTU0NDMyNA==&mid=2247489064&idx=1&sn=fe18d9755e80b8deb34c72b060315d80&chksm=e83a7cc3df4df5d5e925741941fa1027e602f0af0284a651f0bd5431b24b78e0be65cb2903d0&scene=21#wechat_redirect p值相关