变量间的关系分析_R语言

1 变量间的关系分析


1.1 变量间的关系

  • 函数关系(确定性关系)数学模型
  • 相关关系(非确定性关系)统计学
    • 平行关系(相关关系)
      • 一元相关分析
      • 多元相关分析
    • 依存关系(回归分析)
      • 一元回归分析
      • 多元回归分析

1.2 案例分析①_单变量一元回归分析

1. 读取数据

x = c(171, 175, 159, 155, 152, 158, 154, 164, 168, 166, 159, 164)
y = c(57, 64, 41, 38, 35, 44, 41, 51, 57, 49, 47, 46)

2. 直观图示

#散点图看x,y关系
plot(x, y)

变量间的关系分析_R语言

3. 两变量间统计量分析:

总体线性相关系数

ρ=Cov(x,y)var(x)var(y)=σxyσx2σy2\rho = \frac{Cov(x,y)}{\sqrt{var(x)var(y)}}=\frac{\sigma_{xy}}{\sqrt{\sigma_{x}^{2}\sigma_{y}^{2}}}

样本线性相关系数:

	样本化:样本矩代替总体矩(协方差与标准差)

{lxx=(xxˉ)2=x2(x)2)nlyy=(yyˉ)2=y2(y)2)nlxy=(xxˉ)(yyˉ)=xy(x)(y)n\left\{\begin{matrix} l_{xx}=\sum{(x-\bar{x})^{2}}=\sum{x^{2}}-\frac{(\sum{x})^{2})}{n} & & \\ l_{yy}=\sum{(y-\bar{y})^{2}}=\sum{y^{2}}-\frac{(\sum{y})^{2})}{n} & & \\ l_{xy}=\sum{(x-\bar{x})(y-\bar{y})}=\sum{xy}-\frac{(\sum{x})(\sum{y})}{n} & & \\ \end{matrix}\right.

r=SxySx2Sy2lxylxxlyy=(xxˉ)(yyˉ)(xxˉ)2(yyˉ)2r=\frac{S_{xy}}{\sqrt{S_{x}^{2}\cdot S_{y}^{2}}}=\frac{l_{xy}}{\sqrt{l_{xx} \cdot l_{yy}}}=\frac{\sum{(x-\bar x)(y-\bar y)}}{\sqrt{\sum{(x-\bar x)^2}\sum{(y-\bar y)^2}}}

4.建立一个离均差积和函数

{lxx=556.9lyy=813lxy=645.5\left\{ \begin{matrix} l_{xx}=556.9 & & \\ l_{yy}=813 & & \\ l_{xy}=645.5 & & \end{matrix} \right.

r=lxxlxxlyy=645.5559.6×813=0.9593r=\frac{l_{xx}}{\sqrt{l_{xx}l_{yy}}}=\frac{645.5}{\sqrt{559.6\times 813}}=0.9593

5.R语言中计算相关系数函数

  ***cor(x, y=NULL, method=c("pearson", "kendall", "spearman"))***
  
  x: 数值向量、矩阵或数据框
  y:空或数值向量、矩阵或数据框
  method: 计算方法,默认:pearson

计算pearson相关系数

cor(x, y)

6.建立假设检验

H0:ρ=0,H1:ρ0,α=0.05H_ 0:\rho=0,H_ 1:\rho \neq 0,\alpha=0.05

假设检验思想

tr(rρ)Srft_ r\frac{(r-\rho)}{S_ r}\sim f分布

tr=r01r2n2=0.959312210.95932=10.74t_ r=\frac{r - 0}{\sqrt{\frac{1-r^2}{n-2}}}=\frac{0.9593 \sqrt{12 - 2}}{\sqrt{1-0.9593^2}}=10.74

n = length(x)
tr = r/sqrt((1-r^2)/(n-2));tr

7.计算t值和p值,作结论

cor.test(x,y)    
	Pearson's product-moment correlation

data:  x and y

t = 10.743, df = 10, p-value = 8.21e-07

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.8574875 0.9888163

sample estimates:

cor 

0.9593031 

**分析:
**
**p < 5
**

**95%区间估计为[0.8574875 0.9888163]
**

拒绝H0H_ 0

8. 一元线性回归模型的额参数估计

直线方程的模型:y^=a+bx\hat y=a+bx

b=lxylxx=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2b=\frac{l_{xy}}{l_{xx}}=\frac{\sum_{i = 1}^{n}{(x_ i - \bar x)(y_ i - \bar y)}}{\sum_{i = 1}^{n}{(x_ i - \bar x)^2}}

a=yˉbxˉa=\bar y - b \bar x

@lxy(x,y)=i=1nxiyii=1nxii=1nyinlxy(x,y) = \frac{\sum_{i = 1}^{n}{x_ i y_ i}-\sum_{i = 1}^{n}{x_ i}\sum_{i = 1}^{n}{y_ i}}{n}

b = lxy(x, y) / lxy(x, x)
a = mean(y) - b*mean(x)
c(a=a, b=b)

#自定义函数
lxy <- function(x, y){
    n = length(x);
    sum(x * y) - sum(x) * sum(y) / n
}
#散点图:
plot(x, y)
lines(x,a+b*x)

变量间的关系分析_R语言

9.检验:方差分析与t检验:

变量间的关系分析_R语言


1.3 案例分析②_单变量一元回归分析

1.数据读取,拷贝读取

d4.3 = read.table("clipboard",header=T);d4.3

2.拟合模型

#建立模型
m4.3 = lm(y~x, data = d4.3);m4.3
Call:

lm(formula = y ~ x, data = d4.3)


Coefficients:

(Intercept)          x  

     -1.197        1.116  

3.得到模型:

y^=1.20+1.12x\hat y = -1.20 + 1.12x

#做散点图
plot(y~x, data = d4.3)
abline(m4.3)

变量间的关系分析_R语言

4.模型检验_方差分析

#回归系数方差检验
anova(m4.3)Analysis of Variance Table
Response: y
        Df Sum Sq Mean Sq F value    Pr(>F)    

x       1 712077  712077   27428 < 2.2e-16 ***

Residuals 29   753   26

---

Signif. codes:  

0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

分析由于P&lt;0.05P&lt;0.05,拒绝H0H_ 0

x与y间存在直线回归关系

5.模型检验_t检验

#回归系数t检验
summary(m4.3)Call:
lm(formula = y ~ x, data = d4.3)
Residuals:
   Min     1Q Median     3Q    Max 
-6.630 -3.692 -1.535  5.338 11.432 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -1.19656    1.16125   -1.03    0.311    
x            1.11623    0.00674  165.61   <2e-16 ***
---
Signif. codes:  
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 5.095 on 29 degrees of freedom
Multiple R-squared:  0.9989,	Adjusted R-squared:  0.9989 
F-statistic: 2.743e+04 on 1 and 29 DF,  p-value: < 2.2e-16

分析由于P&lt;0.05P&lt;0.05,拒绝H0H_ 0

x与y间存在直线回归关系



Author

lance

2018·10·14