我有 2 个 gzip 压缩的 csv 文件IMFBOP2017_1.csv.gz
和两个文件中的IMFBOP2017_2.csv.gz
列相同,即"Location, Indicator, Measure, Unit, Frequency, Date"
。
总行数 6000万+
我想比较IMFBOP2017_2
中不存在的文件和显示IMFBOP2017_1
行。
我的计划是将两个文件导入数据帧,为两个数据帧添加一个额外的列"比较",并通过所有字段合并来更新它,例如
位置|指标|测量|单位|频率|日期和不运行。
我认为这是一个昂贵的过程,有没有简单的解决方案?
熊猫可以用普通pandas.read_csv()
读取 gzip 的数据文件。如何在两个数据帧之间进行差异在 Pandas:两个数据帧的差异 中描述。