机器学习 - 特征选择和训练数据

问题描述:

我建立了一个分类,并希望提高其精度超越其目前73%机器学习 - 特征选择和训练数据

我开始用卡方纳入特征选择,但我会被选中怎么回的特征纳入训练数据来构建分类器?

如果我是这样做的每个训练数据进行比较,并只挑选出现在功能列表来看,那会是正确的吗?

还做我需要做的测试数据集一样,这是看不见的例子吗?

任何意见将不胜感激。

简而言之,特征选择本质上说,(例如):“输入向量的5个属性,只有拥有1,3,4是有用的功能2,5都是垃圾,不要在使用它们。 ”。这适用于训练和测试模式,因为它们来自同一分布。因此,您可以从训练和测试模式中删除特征2和5,然后按照通常的方式训练和测试分类器。

更一般地,特征提取的点(这是特征选择的超集)是将原来的输入向量变换为不同的输入向量,更适合的分类。您将训练和测试模式都转换为新的形式,从本质上创造了一个新问题。需要注意的是,值可能出现在原来的模式,或者没有(他们可以通过从原来的图形函数和值的组合来制备)然后使用新的,转化problme既训练和测试分类

值得除了blue_note的回答。

为了防止过度拟合并确保您的模型将推广,您应该在单独的开发套件中测试您的特征选择策略。直觉是:如果你尝试不同的模式(即在不同功能的子集训练的分类器)的一个大数目,很可能有些人会在培训执行比别人好只是偶然设置。为了确保一个特定的模型比其他模型更好,您需要在不同的集合中测试它,并且在训练期间没有看到示例。