我正在尝试在一个非常大的数据集上训练线性模型。功能空间很小,但内存中保存的样本太多。我正在即时计算 Gram 矩阵,并尝试将其作为参数传递给 sklearn Lasso(或其他算法),但是,当我调用 fit 时,它需要实际的 X 和 y 矩阵。
知道如何在不存储原始矩阵的情况下使用"预计算"功能吗?
(我的答案是基于svm的用法。SVC,套索可能不同。
我认为您应该将 Gram 矩阵而不是 X 传递给 fit 方法。
此外,Gram 矩阵具有形状(n_samples、n_samples),因此在您的情况下,它也应该太大而无法内存,对吧?