字符串拆分+numpy.array=怪异行为



我正试图从.txt文件中读取用于二进制分类的数据集。

+1 1:-0.882353 2:-0.0653266 3:0.147541 4:-0.373737 5:-1 6:-0.0938897 7:-0.797609 8:-0.933333

这是一个示例行。

这是我用来解析文件的代码。

    reader=csv.reader(f)
    res=[row[0].split(" ")[:-1] for row in reader]
    labels=[int(r[0]) for r in res]
    patterns=[[float(p[2:]) for p in r[1:]] for r in res]
    res=[LabeledExample(p,l) for p,l in zip(patterns,labels)]

LabeledExample是一个类。它是我正在使用的一个框架的类。这非常适合我的需要,但如果我想把这个东西喂给scikit,我需要这样做。

 X=[ example.pattern for example in training_set]
 Y=[ example.label for example in training_set]

其中training_set是Labeled Example的列表。这通常适用于其他数据集,但这一次,如果我试图用这个数据集拟合模型,就会出现以下错误:

 File "/home/chobeat/git/yaplf/yaplf/testsandbox/ensembleexperiment.py", line 29, in ensembletreeexp
    clf.fit(X,Y)
  File "/usr/local/lib/python2.7/dist-packages/sklearn/ensemble/forest.py", line 257, in fit
    check_ccontiguous=True)
  File "/usr/local/lib/python2.7/dist-packages/sklearn/utils/validation.py", line 230, in check_arrays
    array = np.ascontiguousarray(array, dtype=dtype)
  File "/usr/local/lib/python2.7/dist-packages/numpy/core/numeric.py", line 548, in ascontiguousarray
    return array(a, dtype, copy=False, order='C', ndmin=1)
ValueError: setting an array element with a sequence.

试着调试它,我去检查了X阵列的形状,但它不是应该的样子。

它应该是(768,8),但它是(768,)。对于其他数据集,它按预期工作,但在这里它没有。我回到解析代码,检查了基本上所有东西的类型,就我所见,模式是一个浮动列表列表,它应该是这样的,错误解析的数据集和其他数据集之间没有任何有意义的区别。我发现函数"split"虽然引入了行为。在我拆分大字符串之前,我有一个形状数组(768,1),在拆分之后,我有了一个(768,),而不是(768,8),尽管它仍然是一个列表列表。

这是libsvm/svmlight格式。scikit learn中有一个阅读器:sklearn.datasets.load_svmlight_file

好的,找到问题了。数据集中有空值,破坏了我的解析。

相关内容

  • 没有找到相关文章