机器学习主动学习和半监督学习
一、主动学习(active learning)
学习器能够主动选择包含信息量大的未标注的样例并将其交由专家进行标注,然后置入训练集进行训练,从而在训练集较小的情况下获得较高的分类正确率,这样可以有效的降低构建高性能分类器的代价。
学习器能够主动的提出一些标注请求,将一些经过筛选的数据交给专家进行标注。这个过程中最重要的是如何筛选数据进行标注。
二、半监督学习(Semi-Supervised learning,SSL)
半监督学习是将监督学习和无监督学习相结合的一种学习方法。主要考虑的是如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。主要分为半监督分类,半监督回归,半监督聚类和半监督降维算法。
在SSL的研究历史中,出现了自训练(self-training),直推学习(Transductive learning),生成式模型(Generative Model)等学习方法。
三、主动学习与半监督学习的区别
主动学习,在利用未标注数据的时候,是从未标注数据中找到最容易判断错误的样例来交由专家进行标注,这个过程是一个筛选差数据的过程,也是一个互动交互的过程,引入了额外的专家的知识。
半监督学习,尤其是对于自学习模型,对于未标注数据而言,是选择最不容易判断错误的样例来加入到已标注数据中,这个过程,是一个自动的过程,是筛选最好的数据的过程,然后不需要互动,不需要人工干预,基于自身对于未标记数据加以利用,来提高学习模型的泛化性能。
相同点和不同点(Active LearningYi Zhang10-701, Machine Learning, Spring 2011April 20th, 2011)