我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的尺寸是244768 x 34756。现在,在这种规模下,scikit算法都不起作用。
我原以为我会应用主成分分析,但即使这样也无法扩展到这个数据集。
我是否可以减少训练数据集中的冗余数据?我可以通过应用PCA来降低维度,但如果我可以应用PCA的话。
由于我正在进行文档分类,我通过减小单词向量大小,将数据集重新采样到244768*5672。PCA甚至不能应用于这个数据集。
我可以通过这种方法应用PCA吗。假设我的矩阵是A-X=A.T*Apca(X)(X变为5672x5672矩阵)这会给我错误的答案吗?
此外,当我应用Logistic回归时,我可以增量训练模型吗
如果A=10000 x 500我可以拿1000 x 500到物流部。适合(A),然后对其他行也这样做吗?这种训练是错误的吗?
您可以在几个模型上分割数据,这些模型的输出将输入到下一个模型中,该模型将为您提供结果。基本上是其RNN架构。由于内存限制,将如此庞大的数据放在一个网络中是不可能的。