我一直在阅读一些标记为训练和阳性和阴性样本测试的文件夹,以便稍后与train_testrongplit一起使用它们。因为有很多数据,所以我想提取标签并将它们保存到csv文件中。这样做的原因是,稍后我想读取这个csv并将其作为标签输入到ML模型中。我的代码如下:
X_train, X_test, y_train, y_test = train_test_split(trainData, trainLabels)
注意:我无法找到什么结构做train_testrongplit返回,但我想是一个数组。
trainData包含一组以行为单位的句子,trainLabels包含0(正)和1(负)的值。
问题是当我使用以下命令:
y_train.to_csv(index=False)
它生成一个名为ytrainE.csv的文件,其值如下:
"1","0","0","1","0","0","1","0","1","0",...
当我阅读这个csv文件使用它到一个ML模型,我做以下操作:
ytrain=pd.read_csv("ytrainE.csv")
,但当我打印数据时,出现以下数字:
Empty DataFrame
Columns: [1, 0, 0.1, 1.1, 0.2, 0.3, 1.2, 0.4, 1.3, 0.5, 1.4, 0.6, 0.7, 0.8, 0.9, 0.10, 1.5, 1.6, 0.11, 1.7, 0.12, 0.13, 1.8, 0.14, 1.9, 1.10, 0.15, 0.16, 1.11, 0.17, 0.18, 1.12, 1.13, 1.14, 0.19, 0.20, 0.21, 1.15, 0.22, 0.23, 1.16, 0.24, 0.25, 0.26, 1.17, 1.18, 1.19, 0.27, 1.20, 0.28, 0.29, 0.30, 0.31, 0.32,
我假设它想要读取列并且没有找到任何内容,但是我需要这些值的格式,以便我可以将其用于我的ML模型。我该怎么做呢?
您应该将y_train
数据类型从ndarray
转换为DataFrame
示例代码:
pd.DataFrame({'label': y_train}).to_csv("y_train.csv", index=False)
不应该使用index = False
。这将使列名保持为0,并且不会转换列中的值。