在Scikit Learn with Python中测试DecisionTreeClassifier时出错



我从csv文件中读取数据,第一行是字符串,其余都是小数。我不得不将此文件中的数据从字符串转换为小数,现在正在尝试对此数据运行决策树分类器。我可以很好地训练数据,但是当我调用DecisionTreeClassifier.score()时,我收到错误消息:"不支持未知"

这是我的代码:

cVal = KFold(len(file)-1, n_folds=10, shuffle=True);
for train_index, test_index in cVal:
    obfA_train, obfA_test = np.array(obfA)[train_index], np.array(obfA)[test_index]
    tTime_train, tTime_test = np.array(tTime)[train_index], np.array(tTime)[test_index]
    model = tree.DecisionTreeClassifier()
    model = model.fit(obfA_train.tolist(), tTime_train.tolist())
    print model.score(obfA_test.tolist(), tTime_test.tolist())

我之前用这些行填充了 obfA 和 tTime:

tTime.append(Decimal(file[i][11].strip('"')))
obfA[i-1][j-1] = Decimal(file[i][j].strip('"'))

所以obfA是一个2D数组,tTime是1D。 以前我尝试删除上述代码中的"tolist()",但它不影响错误。以下是它打印的错误报告:

in <module>()
---> print model.score(obfA_test.tolist(), tTime_test.tolist())
in score(self, X, y, sample_weight)
    """
    from .metrics import accuracy_score
 -->return accuracy_score(y, self.predict(X), sample_weight=sample_weight)
in accuracy_score(y_true, y_pred, normalize, sample_weight)
    # Compute accuracy for each possible representation
  ->y_type, y_true, y_pred = _check_clf_targets(y_true, y_pred)
    if y_type == 'multilabel-indicator':
        score = (y_pred != y_true).sum(axis=1) == 0
in _check_clf_targets(y_true, y_pred)
    if (y_type not in ["binary", "multiclass", "multilabel-indicator", "multilabel-sequences"]):
        -->raise ValueError("{0} is not supported".format(y_type))
    if y_type in ["binary", "multiclass"]:
ValueError: unknown is not supported

我添加了 print 语句来检查输入参数的尺寸,这就是它打印的内容:

obfA_test.shape: (48L, 12L)
tTime_test.shape: (48L,)

我很困惑为什么错误报告显示 score() 的 3 个必需参数,而文档只有 2 个。什么是"self"参数?谁能帮我解决这个错误?

这似乎让人想起这里讨论的错误。问题似乎源于您用于拟合和评分模型的数据类型。在填充输入数据数组时,不要Decimal,而是尝试float 。只是为了不让我有一个不准确的答案 - 你不能对决策树分类器使用浮点数/连续值。如果要使用浮点数,请使用决策树回归器。否则,请尝试使用整数或字符串(但这可能会偏离您尝试完成的任务)。

至于最后的自我问题,这是Python的语法特质。当你做model.score(...)时,Python有点像score(model,...)一样对待它。恐怕我现在对此了解不多,但没有必要回答你原来的问题。这是一个更好地解决该特定问题的答案。

我意识到我遇到的问题是因为我试图使用DecisionTreeClassifier来预测连续值,而它们只能用于预测离散值。我将不得不改用回归模型。

相关内容

  • 没有找到相关文章

最新更新