机器学习(一) 线性回归算法
机器学习(一) 线性回归算法
前言: 身处于大数据时代,又置身于科研的征途上,如果没有合理的数据处理和分析方法,那么你置身于无穷无尽的大数据之中只有迷茫的份了。关于机器学习这个类别的博文,我将跟随着吴恩达老师的机器学习视频为基础,然后以我对视频的理解来记录机器学习相关的算法。
一、机器学习一般步骤
二、公式中符号解释
m:训练样本的数量
X:输入变量
Y:输出变量
(X,Y):一个训练样本数据
(X(i),Y(i)):第i行训练样本数据
例如预测房价与房子大小以及卧室个数、楼层个数、房龄之间关系的训练样本,如下表
size | bed room num | floors num | age of home | price |
---|---|---|---|---|
2104 | 5 | 1 | 45 | 460 |
1416 | 3 | 2 | 40 | 232 |
1534 | 3 | 2 | 30 | 315 |
834 | 2 | 1 | 30 | 178 |
… | … | … | … | … |
三、单一特征线性回归
1、例如预测房价与房屋大小的训练集(Traning set)如下表:
x | y |
---|---|
2104 | 460 |
1416 | 232 |
1534 | 315 |
834 | 178 |
… | … |
2、通过假设函数(Hypothesis):hΘ(x)=Θ0+Θ1x近似拟合训练集数据,进而通过假设函数进行数据预测,如下图
3、确定了假设函数,我们下一步的目标是选择合适的Θ0,Θ1使得hΘ(xi)与yi最接近,将其用数学语言表示即如下式所示:
其中为什么取平方差累加之后的平均值时候,多乘以1/2,我的理解是主要在后面的梯度下降法中求偏导数的时候,这个1/2刚好可以把平方2消除,方便计算。
4、由此得到了代价函数(平方误差代价函数)J(Θ0,Θ1),数学表达式如下:
那么,下面的目标就是确定Θ0,Θ1使得J(Θ0,Θ1)收敛于最小值
总结
简单的单特征线性回归算法有如下要点:
1、假设函数(hypothesis):hΘ(x)=Θ0+Θ1x
2、参数(parameter): Θ0,Θ1
3、代价函数(cost Function):
4、目标(goal):minimize J(Θ0,Θ1)