ValueError:在默认判定上使用 sklearn 时样本数不一致



我正在读取.csv文件中的列作为 sklearn 朴素贝叶斯适合的输入。但是,我遇到了这些错误和警告:

弃用警告:将一维数组作为数据传递在 0.17 中被弃用,并将在 0.19 中引发 ValueError。如果数据具有单个特征,则使用 X.reshape(-1, 1) 重塑数据,如果包含单个样本,则使用 X.reshape(1, -1) 重塑数据。

值错误: 发现样本数不一致的数组: [ 1 10509]

这是我的代码:

clf = GaussianNB()
columns = defaultdict(list)
with open('file.CSV', 'rb') as f:
    reader = csv.reader(f)
    for row in reader:
        for(i, v) in enumerate(row):
            columns[i].append(v)
clf.fit(columns[9], columns[10])
请注意,len(columns[

9])和len(columns[10])都是10509

正如警告所暗示的那样,我尝试了很多不同的 reshape()、flatten()、ravel() 组合,也尝试使用 numpy 数组,但似乎没有任何效果。

有什么建议吗?似乎大多数人都在使用默认字典以外的某种数据结构,但我不确定如何使用其他数据结构从.csv读取

我找到了解决问题的方法。似乎问题不在于塑造数据结构,而在于将其设置为数字类型而不是字符串类型。

x = np.array(columns[9]).reshape(len(columns[10]), 1).astype(np.float)
y = np.array(columns[10])
clf.fit(x, y)

相关内容

  • 没有找到相关文章

最新更新