机器学习-大数据集的问题

我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的尺寸是244768 x 34756。现在，在这种规模下，scikit算法都不起作用。

我原以为我会应用主成分分析，但即使这样也无法扩展到这个数据集。

我是否可以减少训练数据集中的冗余数据？我可以通过应用PCA来降低维度，但如果我可以应用PCA的话。

由于我正在进行文档分类，我通过减小单词向量大小，将数据集重新采样到244768*5672。PCA甚至不能应用于这个数据集。

我可以通过这种方法应用PCA吗。假设我的矩阵是A-X=A.T*Apca（X）（X变为5672x5672矩阵）这会给我错误的答案吗？

此外，当我应用Logistic回归时，我可以增量训练模型吗

如果A=10000 x 500我可以拿1000 x 500到物流部。适合（A），然后对其他行也这样做吗？这种训练是错误的吗？

您可以在几个模型上分割数据，这些模型的输出将输入到下一个模型中，该模型将为您提供结果。基本上是其RNN架构。由于内存限制，将如此庞大的数据放在一个网络中是不可能的。

相关内容