我正在读取.csv文件中的列作为 sklearn 朴素贝叶斯适合的输入。但是,我遇到了这些错误和警告:
弃用警告:将一维数组作为数据传递在 0.17 中被弃用,并将在 0.19 中引发 ValueError。如果数据具有单个特征,则使用 X.reshape(-1, 1) 重塑数据,如果包含单个样本,则使用 X.reshape(1, -1) 重塑数据。
和
值错误: 发现样本数不一致的数组: [ 1 10509]
这是我的代码:
clf = GaussianNB()
columns = defaultdict(list)
with open('file.CSV', 'rb') as f:
reader = csv.reader(f)
for row in reader:
for(i, v) in enumerate(row):
columns[i].append(v)
clf.fit(columns[9], columns[10])
请注意,len(columns[9])和len(columns[10])都是10509
正如警告所暗示的那样,我尝试了很多不同的 reshape()、flatten()、ravel() 组合,也尝试使用 numpy 数组,但似乎没有任何效果。
有什么建议吗?似乎大多数人都在使用默认字典以外的某种数据结构,但我不确定如何使用其他数据结构从.csv读取
我找到了解决问题的方法。似乎问题不在于塑造数据结构,而在于将其设置为数字类型而不是字符串类型。
x = np.array(columns[9]).reshape(len(columns[10]), 1).astype(np.float)
y = np.array(columns[10])
clf.fit(x, y)