使用Scikit-learn进行拟合时出现Python MemoryError



我在Windows 8 64位系统上运行Python 2.7(64位),内存为24GB。当对通常的Sklearn.linear_models.Ridge进行拟合时,代码运行良好。

问题:然而,当使用Sklearn.linear_models.RidgeCV(alphas=alphas)进行拟合时,我在执行拟合过程的rr.fit(X_train, y_train)行遇到如下所示的MemoryError错误。

如何防止这个错误?

<

代码片段/strong>

def fit(X_train, y_train):
    alphas = [1e-3, 1e-2, 1e-1, 1e0, 1e1]
    rr = RidgeCV(alphas=alphas)
    rr.fit(X_train, y_train)
    return rr

rr = fit(X_train, y_train)
误差

MemoryError                               Traceback (most recent call last)
<ipython-input-41-a433716e7179> in <module>()
      1 # Fit Training set
----> 2 rr = fit(X_train, y_train)
<ipython-input-35-9650bd58e76c> in fit(X_train, y_train)
      3 
      4     rr = RidgeCV(alphas=alphas)
----> 5     rr.fit(X_train, y_train)
      6 
      7     return rr
C:Python27libsite-packagessklearnlinear_modelridge.pyc in fit(self, X, y, sample_weight)
    696                                   gcv_mode=self.gcv_mode,
    697                                   store_cv_values=self.store_cv_values)
--> 698             estimator.fit(X, y, sample_weight=sample_weight)
    699             self.alpha_ = estimator.alpha_
    700             if self.store_cv_values:
C:Python27libsite-packagessklearnlinear_modelridge.pyc in fit(self, X, y, sample_weight)
    608             raise ValueError('bad gcv_mode "%s"' % gcv_mode)
    609 
--> 610         v, Q, QT_y = _pre_compute(X, y)
    611         n_y = 1 if len(y.shape) == 1 else y.shape[1]
    612         cv_values = np.zeros((n_samples * n_y, len(self.alphas)))
C:Python27libsite-packagessklearnlinear_modelridge.pyc in _pre_compute_svd(self, X, y)
    531     def _pre_compute_svd(self, X, y):
    532         if sparse.issparse(X) and hasattr(X, 'toarray'):
--> 533             X = X.toarray()
    534         U, s, _ = np.linalg.svd(X, full_matrices=0)
    535         v = s ** 2
C:Python27libsite-packagesscipysparsecompressed.pyc in toarray(self, order, out)
    559     def toarray(self, order=None, out=None):
    560         """See the docstring for `spmatrix.toarray`."""
--> 561         return self.tocoo(copy=False).toarray(order=order, out=out)
    562 
    563     ##############################################################
C:Python27libsite-packagesscipysparsecoo.pyc in toarray(self, order, out)
    236     def toarray(self, order=None, out=None):
    237         """See the docstring for `spmatrix.toarray`."""
--> 238         B = self._process_toarray_args(order, out)
    239         fortran = int(B.flags.f_contiguous)
    240         if not fortran and not B.flags.c_contiguous:
C:Python27libsite-packagesscipysparsebase.pyc in _process_toarray_args(self, order, out)
    633             return out
    634         else:
--> 635             return np.zeros(self.shape, dtype=self.dtype, order=order)
    636 
    637 
MemoryError: 

print type(X_train)
print X_train.shape
结果

<class 'scipy.sparse.csr.csr_matrix'>
(183576, 101507)

看一下堆栈跟踪的这一部分:

    531     def _pre_compute_svd(self, X, y):
    532         if sparse.issparse(X) and hasattr(X, 'toarray'):
--> 533             X = X.toarray()
    534         U, s, _ = np.linalg.svd(X, full_matrices=0)
    535         v = s ** 2

你使用的算法依赖于numpy的线性代数例程来进行SVD。但是它们不能处理稀疏矩阵,因此作者简单地将它们转换为常规的非稀疏数组。为此必须做的第一件事是分配一个全零数组,然后用稀疏矩阵中稀疏存储的值填充适当的位置。听起来很简单,但让我们来算算。一个float64(默认的dtype,如果你不知道你在使用什么,你可能会使用它)元素占用8个字节。因此,根据您提供的数组形状,新的零填充数组将为:

183576 * 101507 * 8 = 149,073,992,256 ~= 150 gigabytes

系统的内存管理器可能看了一眼分配请求就自杀了。但是你能做些什么呢?

首先,这看起来是一个相当荒谬的功能数量。我不知道你的问题域或你的特征是什么,但我的直觉反应是你需要在这里做一些降维。

第二,你可以尝试修复算法对稀疏矩阵的错误处理。这里numpy.linalg.svd卡住了,所以你可以用scipy.sparse.linalg.svds代替。我不知道问题中的算法,但它可能不适用于稀疏矩阵。即使您使用适当的稀疏线性代数例程,它也可能生成(或在内部使用)一些大小与您的数据相似的非稀疏矩阵。使用稀疏矩阵表示来表示非稀疏数据只会导致使用比原来更多的空间,因此这种方法可能不起作用。

这里的相关选项是gcv_mode。它可以有3个值:"auto","svd"one_answers"eigen"。默认设置为"auto",其行为如下:如果n_samples> n_features,则使用svd模式,否则使用特征模式。

因为在您的示例中是n_samples> n_features,所以选择了svd模式。然而,svd模式目前不能正确处理稀疏数据。scikit-learn应该使用合适的稀疏奇异值分解,而不是密集奇异值分解。

作为一种解决方法,我会通过gcv_mode="eigen"强制使用特征模式,因为该模式应该正确处理稀疏数据。然而,在您的例子中,n_samples是相当大的。由于特征模式构建了一个内核矩阵(因此具有n_samples ** 2的内存复杂度),内核矩阵可能不适合内存。在这种情况下,我只会减少样本的数量(虽然特征模式可以处理大量的特征而没有问题)。

在任何情况下,由于n_samples和n_features都相当大,您正在将此实现推向其极限(即使使用适当的稀疏SVD)。

参见https://github.com/scikit-learn/scikit-learn/issues/1921

最新更新