《深入浅出数据分析》-10.回归(预测)
十、回归
前面的第九章,我们通过直方图得到了一个结论,主动申请加薪比不主动申请能得到更高的加薪比例,显然,你发现了如何得到更高加薪的秘密,这是大家的福音,所以你也应该利用这个技能来帮别人争取加薪,但要求加多少钱合理呢?
从已有的数据中,我们统计了客户的要求加薪幅度与实际加薪幅度
在R中运行一下几行指令:
加载数据:employees<-read.csv("http://www.headfirstlabs.com/books/hfda/hfda_ch10_employees.csv", header=TRUE)
显示部分内容:head(employees, n=30)
绘制散点图:plot(employees$requested[employees$negotiated==TRUE],
employees$received[employees$negotiated==TRUE])
回归线对于具有线性相关特点的数据很有用,我们可以使用R/SPSS计算两个属性的相关系数
cor(employees$requested[employees$negotiated==TRUE],employees$received[employees$negotiated==TRUE])
我们可以使用一个等式来进行精确预测:y=a+bx,我们可以让R来创建一个回归对象
lm(received[negotiated==TRUE]~requested[negotiated==TRUE], data=employees)
myLm$coefficients
得出的前一个数字是a,后一个数字是b
但我们得到的回归方程并不是一定准确的,会出现失误,下一章将介绍方程的合理误差