x_train:(153347,53)
x_test:(29039,52)
y:(153347,)
我正在与sklearn合作。为了交叉验证和重塑我的数据集,我这样做了:
x_train, x_test, y_train, y_test = cross_validation.train_test_split(
x, y, test_size=0.3)
x_train = np.pad(x, [(0,0)], mode='constant')
x_test = np.pad(x, [(0,0)], mode='constant')
y = np.pad(y, [(0,0)], mode='constant')
x_train = np.arange(8127391).reshape((-1,1))
c = x.T
np.all(x_train == c)
x_test = np.arange(1510028).reshape((-1,1))
c2 = x.T
np.all(x_test == c2)
y = np.arange(153347).reshape((-1,1))
c3 = x.T
np.all(y == c3)
我的错误消息是:ValueError: Found arrays with inconsistent number of samples: [2 153347]
我不确定我需要填充我的数据集在这种情况下,重塑不工作。对我如何解决这个问题有什么想法吗?
对于我们在这里看到的一点,我认为对cross_validation.train_test_split
的调用转储是因为两个向量的长度不一致。因此,对于每个X(我们观察到的数据元组),您需要一个Y(作为结果观察到的数据点)。
至少这会导致上面所示的错误。
你一定要改进这个问题的提法。非常喜欢。问候,fricke