小贝子编程

Python 3.6：比较两个大的压缩csv文件并获取差异记录

我有 2 个 gzip 压缩的 csv 文件IMFBOP2017_1.csv.gz和两个文件中的IMFBOP2017_2.csv.gz列相同，即"Location, Indicator, Measure, Unit, Frequency, Date"。

总行数 6000万+

我想比较IMFBOP2017_2中不存在的文件和显示IMFBOP2017_1行。

我的计划是将两个文件导入数据帧，为两个数据帧添加一个额外的列"比较"，并通过所有字段合并来更新它，例如

位置|指标|测量|单位|频率|日期和不运行。

我认为这是一个昂贵的过程，有没有简单的解决方案？

熊猫可以用普通pandas.read_csv()读取 gzip 的数据文件。如何在两个数据帧之间进行差异在 Pandas：两个数据帧的差异中描述。

相关内容