热以避免 Python Dask 逻辑回归检测到多个常量列错误



我正在使用python3和Dask来拟合逻辑回归模型。我有两个数字数组 x, y我使用此代码将它们转换为 dask 数组

data = da.from_array(data, chunks=(1000, data.shape[1]))
labels = da.from_array(labels)

然后

from dask_ml.linear_model import LogisticRegression
l = LogisticRegression()
l.fit(data, labels)

拟合逻辑回归但不断收到此错误

引发值错误("检测到多个常量列!值错误: 检测到多个常量列!

在这里发现这与 dask df 有关,但我正在训练一个数组。想法?

您可能可以对data进行一些预处理。由于具有常量值的特征列在很多 ML 任务中进行预测/估计方面没有提供太多帮助,而这些是std == 0的地方,我们可以通过执行以下操作在开始时摆脱它们:

data = data[:, ~np.all(data==data[0,:], axis=0)]

最新更新