机器学习 - 与大数据集的问题

机器学习 - 与大数据集的问题

问题描述:

我想将机器学习应用于Kaggle.com数据集。我的数据集的维度是244768 x 34756.现在在这个大小没有scikit算法的工作。机器学习 - 与大数据集的问题

我以为我会应用PCA,但即使这不会扩大到这个数据集。

无论如何,我可以减少我的训练数据集中的冗余数据吗?我可以通过应用PCA来减少维度,但是如果我能应用PCA。

由于我正在做文档分类,我通过减少单词向量大小来重新采样我的数据集到244768 * 5672。即使是这个数据集也不能应用PCA。

我可以通过这种方法应用PCA吗?假设我的矩阵是A - X = A.T * A pca(X)(X变为5672 x 5672矩阵) 这会给我错误的答案吗?

而且当我申请Logistic回归,我可以训练模型递增,.IE

如果A = 10000×500 我可以采取1000×500,对logistic.fit(A),然后执行相同的换其他行?这种训练是否错误?

+1

您是否试过[IncrementalPCA](http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.IncrementalPCA.html#sklearn.decomposition.IncrementalPCA)? – EdChum 2015-04-02 20:44:59

+0

您使用的是32位还是64位系统? 64位可能会有所帮助。 – pyan 2015-04-02 20:54:47

+0

您是否可以在滑动窗口中读取数据集并汇总结果? – postelrich 2015-04-02 21:10:24

您可以在少数模型上分割您的数据,输出的数据将被输入到可以给出结果的下一个模型。 基本上它的RNN体系结构。 由于内存限制,将这种海量数据放在一个网络中是不可能的。