机器学习阶段总结

学习顺序 内容
概率论基础 二项分布、高斯分布等,指数族分布 等
线代基础 行列式、矩阵、特征值与特征向量、矩阵的秩等
python基础 numpy、plt等

在以上基础上,还需机器学习的专业知识(一些推导过程及思考方式)
以下是目前进行到的理论部分
1.y=θx+ε(均为矩阵)
x与y具有某种关联关系,一系列x与y的数据样本得矩阵,θ为关键参数矩阵,θx为预测值,表示对x进行某种矩阵变换,ε为误差。
x的维度为y的某特征值,

苹果为例子,目标为单价y 特征x
y1 θ1x1+θ2x2+θ3*x3+…

比如某地的苹果市面单价,与以下因子相关:
x1:苹果原产地
x2:生产日期|
x3:个头大小
x4:品种
xn:…

假设1:每组x对应y的发生互相独立,即xy样本独立;
假设2:ε服从高斯分布(现实中,由众多因素的独立影响的综合分布,往往服从正态分布)

表格左侧为得到的市面售价实际数据y,右侧为设计的一系列θ权重,与相应的因子x乘积得出的猜测,显然实际与猜测之间总有误差,且对每一组猜测数据,都有对应的误差值。

机器学习的方法和目的:
输入:一系列x与y的数据,处理数据、选取模型算法、根据评价模拟的指标,
输出调教出尽量合适的θ权重因子
目的发现xy内在的某种联系,实现:有新的x值,能预测y,或者有新的y值,可以预测x

简述求θ理论过程:
1.y=θx+ε,因xy独立、ε服从正态分布,概率论知识,得到y关于参数(θ、x)的概率分布
机器学习阶段总结
因xy独立,则服从似然函数L(θ),现在,找θ使L(θ)最大
机器学习阶段总结
进行取对数,使L(θ)最大,则J(θ)最小,即划线部分(损失函数、目标函数)。
机器学习阶段总结
机器学习阶段总结
得出θ关于xy的式子,为找到使目标函数J(θ)最小的θ,接下来是找梯度下降的方法,下次更新…