预处理 csv 数据集后重新构建

我加载了一个用于数据预处理的csv文件。完成数据预处理后，并非需要 csv 文件中的所有列。所以我想通过只提取几个必要的列来重建 csv 文件。我应该使用什么代码？

例如，列 = a，b，c，d，e，f，g，h，i 但我只需要 a，b，c，d 所以，

before csv file : columns = a,b,c,d,e,f,g,h,i
after csv file : columns = a,b,c,d

*数据集非常大，约为6GB *Python 3.6.9 *使用熊猫

使用 Pandas 库提供的方法read_csv，您可以从 csv 文件中读取一些(而不是全部(列。

定义一个变量，例如

cols = ['a', 'b', 'c', 'd']

包含所需列的名称。设置参数函数usecols等于cols后：

import pandas as pd
df = pd.read_csv(path_file, usecols=cols)

毕竟，数据帧df包含cols中定义的列中的值。由于您只会阅读几列，因此花费的时间更少！

相关内容