划分大数据集python



我的数据集特征形状是(801022592(和label.shape(801022(。我只想考虑几行训练,因为训练CNN模型需要很多时间。我如何在python中划分数据集,并只考虑几行来进行transing和tesing。

如果数据是数组形式,那么X是包含数据的数组,y是包含标签的数组。您可以使用sklearn-train_testrongplit函数根据下面的代码创建新的数据样本

from sklearn.model_selection import train_test_split
percent=.1 specify the percentof data you want to use, in this case 10%
X_data, X_dummy, y_labels, y_dummy=train_test_split(X,y,train_size=percent,randon_state=123, shuffle=True)

X_data将包含原始数据的10%,并将被打乱y_labels将包含10%的相应标签。如果要专门设置采样数,请将train_size设置为一个整数值。如果您需要更多信息,文档位于此处。如果数据是pandas数据帧,则可以使用pandas函数pandas。DataFrame.sample..文档在这里。。假设您的数据帧称为数据。下面的代码将生成一个新的数据帧,该帧具有原始行的指定百分比

percent=.1
new_data=pandas.data.sample(n=None, frac=percent, replace=False, weights=None, random_state=123, axis=0)

相关内容

  • 没有找到相关文章

最新更新