预处理 csv 数据集后重新构建



我加载了一个用于数据预处理的csv文件。 完成数据预处理后,并非需要 csv 文件中的所有列。 所以我想通过只提取几个必要的列来重建 csv 文件。 我应该使用什么代码?

例如,列 = a,b,c,d,e,f,g,h,i 但我只需要 a,b,c,d 所以,

before csv file : columns = a,b,c,d,e,f,g,h,i
after csv file : columns = a,b,c,d

*数据集非常大,约为6GB *Python 3.6.9 *使用熊猫

使用 Pandas 库提供的方法read_csv,您可以从 csv 文件中读取一些(而不是全部(列。

定义一个变量,例如

cols = ['a', 'b', 'c', 'd']

包含所需列的名称。设置参数函数usecols等于cols后:

import pandas as pd
df = pd.read_csv(path_file, usecols=cols)

毕竟,数据帧df包含cols中定义的列中的值。由于您只会阅读几列,因此花费的时间更少!

最新更新