吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)

第13章节

吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)
代价函数和正则化项
吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)
吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)

吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)

吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)

为什么要归一化呢?

感谢原作者:归一化的相关分析
例如:房价预测,房屋特征的各个参数,特征变量房屋面积数值很大,卧室个数数值较小,因此需要归一化,不然房屋面积的大小对整体的影响就特别大。

归一化应用场景说明

1)概率模型不需要归一化,因为这种模型不关心变量的取值,而是关心变量的分布和变量之间的条件概率;

2)SVM、线性回归之类的最优化问题需要归一化,是否归一化主要在于是否关心变量取值;

3)神经网络需要标准化处理,一般变量的取值在-1到1之间,这样做是为了弱化某些变量的值较大而对模型产生影响。一般神经网络中的隐藏层采用tanh**函数比sigmod**函数要好些,因为tanh双曲正切函数的取值[-1,1]之间,均值为0.

4)在K近邻算法中,如果不对解释变量进行标准化,那么具有小数量级的解释变量的影响就会微乎其微。

逻辑回归和SVM何时使用的比较

吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)


第14章节

无监督学习——K-Means算法
吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)
吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)
如果存在一个没有点的聚类中心,解决方法:
一:直接移除那个聚类中心(通常做法)
二:重新随机初始化这个聚类中心
吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)

  • 随机初始化:
    K-Means算法过程如下:
    算法迭代 50——1000 次,随机初始化,得到样本分类和,计算代价函数,最小的代价函数# 第13章节
    吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)代价函数和正则化项吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)## 为什么要归一化呢?感谢原作者:归一化的相关分析例如:房价预测,房屋特征的各个参数,特征变量房屋面积数值很大,卧室个数数值较小,因此需要归一化,不然房屋面积的大小对整体的影响就特别大。## 归一化应用场景说明1)概率模型不需要归一化,因为这种模型不关心变量的取值,而是关心变量的分布和变量之间的条件概率;2)SVM、线性回归之类的最优化问题需要归一化,是否归一化主要在于是否关心变量取值;3)神经网络需要标准化处理,一般变量的取值在-1到1之间,这样做是为了弱化某些变量的值较大而对模型产生影响。一般神经网络中的隐藏层采用tanh**函数比sigmod**函数要好些,因为tanh双曲正切函数的取值[-1,1]之间,均值为0.4)在K近邻算法中,如果不对解释变量进行标准化,那么具有小数量级的解释变量的影响就会微乎其微。## 逻辑回归和SVM何时使用的比较吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)

第14章节无监督学习——K-Means算法吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)

吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)如果存在一个没有点的聚类中心,解决方法:一:直接移除那个聚类中心(通常做法)二:重新随机初始化这个聚类中心吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法) - 随机初始化:K-Means算法过程如下:算法迭代 50——1000 次,随机初始化,得到样本分类和,计算代价函数,最小的代价函数即为全局(局部)最优值。
吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)
当K 在 2 —— 10之间时,通过多次迭代,往往可以有较大的提升,找到一个较好的局部(全局)最优值,单如果K的值远大于10的话,多次迭代也会给出稍微好些的结果,但是提升不会太多。

算法步骤:
初始化:随机初始化K个聚类中心
一:分配每个样本所属分类,(与K个 中距离最近的那个 聚类中心 作为其 类别)
二:移动聚类中心(将聚类中心移到 其类别所有元素的 均值处 )

对以上步骤进行迭代

如何选择聚类数量:
吴恩达老师机器学习笔记(四:SVM-支持向量机and K-Means算法)
肘部法则:即通过尝试不同的 K 值 来观察 代价函数 曲线, 拐点处 通常为合适的 K值,这个方法不总是能选出最佳 K值
目前决定聚类数量最常用的方法:

  1. 通过可视化的图或者通过观察聚类算法的输出
  2. 手动选择聚类的数目,经验选择
  3. 决定聚类的数量更好的方式是:看哪个聚类数量 能更好地应用于后续目的