如何将CSV数据集按百分比拆分为训练和测试集,并将拆分后的数据集与Panda一起保存到本地文件夹中



我有一个大尺寸的CSV数据集,需要将训练集和测试集分别拆分77%和33%。最后,我想访问本地机器中的每个文件。

导入所需库

import math

整个数据集

df = pd.read_csv('CTU.csv')
total_size=len(df)
train_size=math.floor(0.77*total_size)

训练数据集和测试数据集

train=df.head(train_size)
test=df.tail(len(df) -train_size)

正在保存文件

train.to_csv('train.csv')
test.to_csv('test.csv')

最新更新