我加载了一个用于数据预处理的csv文件。 完成数据预处理后,并非需要 csv 文件中的所有列。 所以我想通过只提取几个必要的列来重建 csv 文件。 我应该使用什么代码?
例如,列 = a,b,c,d,e,f,g,h,i 但我只需要 a,b,c,d 所以,
before csv file : columns = a,b,c,d,e,f,g,h,i
after csv file : columns = a,b,c,d
*数据集非常大,约为6GB *Python 3.6.9 *使用熊猫
使用 Pandas 库提供的方法read_csv
,您可以从 csv 文件中读取一些(而不是全部(列。
定义一个变量,例如
cols = ['a', 'b', 'c', 'd']
包含所需列的名称。设置参数函数usecols
等于cols
后:
import pandas as pd
df = pd.read_csv(path_file, usecols=cols)
毕竟,数据帧df
包含cols
中定义的列中的值。由于您只会阅读几列,因此花费的时间更少!