李宏毅机器学习笔记(8)—半监督学习

分类

直推学习:训练过程中使用待测试数据,目的是提高对这些数据分类的正确率。
归纳学习:训练过程的目的是提出一个能够泛用的模型,而不是单单为了某些待测试数据。

常用方法

self-training

自我训练:方法非常直观
①根据有标签的data训练出一个模型;
②把无标签的data代入模型,得到可能性最大的标签
③选择②中一些表现比较好的数据(指得到的最大可能性与其他可能性差距较大,即这个label大概率是对的),重新带入①中,继续训练
④重复直至收敛

Entropy-based Regularization

李宏毅机器学习笔记(8)—半监督学习
如上图,介绍一种称为Entropy-based Regularization的方法。
首先,Entropy是用于衡量生成标签的可能性的分散程度,如果可能性十分集中,这个值E就会越小,而我们希望他是更集中的。
所以在设计Loss函数的时候,我们在一般的item后面加了一项李宏毅机器学习笔记(8)—半监督学习
用于描述我们期望E越小越好。这个行为很类似于之前提到的正则化,所以称之为Entropy-based Regularization。

Semi-supervised SVM

平滑性假设:(Smoothness Assumption)
(1) x 的分布是不均匀的,在有的地方是稀疏的,在有的地方是密集的
(2) 如果在高密度区域比较相近,那么这两个数据具有相同的标签
李宏毅机器学习笔记(8)—半监督学习
如上图所示,只有在高密度的区域中相近的数据才有类似的标签,例如X1与X2,。不在同一区域的数据,即使距离并不远,也不能认为用相同的标签。

具体实践可以考虑用deep auto-encoder先提取出图像的特征,在使用聚类的方式进行分类。

Graph-based Approach

基于图的方法
李宏毅机器学习笔记(8)—半监督学习
可以把所有的数据点视作一张图上的点,靠的很近的点之间会有连接线,这样就会吧大部分的点连接起来,并且,在同一个连通图里的数据点被视为是同一类的可能性较大。
如何去建立这些连接线呢?有几种方法:
①K Nearest Neighbor(K-邻近法):寻找到某个点周围最近的k个点,连接起来。
②e-Neighborhood:寻找到周围“距离”小于e的几个点连接起来,e的定义可以参考如下式子,其中,使用exp是为了让相聚较远的点数值迅速下降。
李宏毅机器学习笔记(8)—半监督学习
最后,要如何衡量一张图的平滑度?
李宏毅机器学习笔记(8)—半监督学习