我有一个大尺寸的CSV数据集,需要将训练集和测试集分别拆分77%和33%。最后,我想访问本地机器中的每个文件。
导入所需库
import math
整个数据集
df = pd.read_csv('CTU.csv')
total_size=len(df)
train_size=math.floor(0.77*total_size)
训练数据集和测试数据集
train=df.head(train_size)
test=df.tail(len(df) -train_size)
正在保存文件
train.to_csv('train.csv')
test.to_csv('test.csv')