少数样本和特征的机器学习算法
问题描述:
我打算做一个yes/no分类器。问题是数据不是来自我的,所以我必须与我所得到的一起工作。我有大约150个样本,每个样本包含3个特征,这些特征是连续的数字变量。我知道数据集非常小。我想提出两个问题:少数样本和特征的机器学习算法
A)什么是最好的机器学习算法呢? SVM?一个神经网络?我读过的所有内容似乎都需要一个大数据集。 B)我可以通过添加一些不包含所有特征的样本来增大数据集的大小,只有一个或两个。我已经读过,你可以在这种情况下使用稀疏矢量,这是可能的每个机器学习算法? (我在SVM中看到过它们)
非常感谢您的帮助!
答
朴素贝叶斯是一个很好的选择,当培训的例子很少的情况下。与逻辑回归相比,Ng和Jordan表明朴素贝叶斯以较少的训练样例更快地收敛到最佳性能。 (参见book chapter的第4部分)。非正式地讲,朴素贝叶斯模型的联合概率分布在这种情况下表现更好。
在这种情况下不要使用决策树。决策树有过度适应的倾向,当你的训练数据很少时,这个问题就会加剧。
+0
好的,谢谢,我会把它放在我的算法列表中尝试 – Kailegh
您可以包括可视化数据分布的图表,例如,按类成员身份着色的二维散点绘图仪。任何试图回答没有只是猜测 – CAFEBABE
我将不会收到数据,直到下周的一些点,我目前正在准备算法对不起,只要我有他们,我会发布他们 – Kailegh