Scikit-learn随机森林拟合方法中的值错误

我正在尝试使用 python 和 scikit-learn 来训练（拟合）随机森林分类器，用于存储为特征向量的一组数据。我可以读取数据，但由于值 Erros，我无法运行分类器的训练。我使用的源代码如下：

from sklearn.ensemble import RandomForestClassifier
from numpy import genfromtxt
 my_training_data = genfromtxt('csv-data.txt', delimiter=',')
 X_train = my_training_data[:,0]
 Y_train = my_training_data[:,1:my_training_data.shape[1]]
 clf = RandomForestClassifier(n_estimators=50)
 clf = clf.fit(X_train.tolist(), Y_train.tolist())

返回给我的错误如下：

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/python2.7/dist-packages/sklearn/ensemble/forest.py",  line 260, in fit
n_samples, self.n_features_ = X.shape
ValueError: need more than 1 value to unpack

csv-data.txt 是一个逗号分隔值文件，包含 3996 个用于训练分类器的向量。我使用 f用于标记向量的 irst 维度，其余为浮点值。这些是分类器中使用的特征向量的维度。

我在这里错过了一些转换吗？

训练示例按行存储在"csv-data.txt"中，每行的第一个数字包含类标签。因此，您应该拥有：

X_train = my_training_data[:,1:]
Y_train = my_training_data[:,0]

请注意，在 X_train 的第二个索引中，您可以省略结束索引，索引将自动运行到末尾（当然您可以明确说明，但这只是仅供参考。

此外，在调用fit()时无需调用tolist()，因为这些已经numpy ndarray，如果参数是列表，fit() 函数会将它们转换回numpy ndarray。

clf.fit(X_train.tolist(), Y_train.tolist())

相关内容

最新更新

热门标签：