Python 3.6:比较两个大的压缩csv文件并获取差异记录



我有 2 个 gzip 压缩的 csv 文件IMFBOP2017_1.csv.gz和两个文件中的IMFBOP2017_2.csv.gz列相同,即"Location, Indicator, Measure, Unit, Frequency, Date"

总行数 6000万+

我想比较IMFBOP2017_2中不存在的文件和显示IMFBOP2017_1行。

我的计划是将两个文件导入数据帧,为两个数据帧添加一个额外的列"比较",并通过所有字段合并来更新它,例如

位置|指标|测量|单位|频率|日期和不运行。

我认为这是一个昂贵的过程,有没有简单的解决方案?

熊猫可以用普通pandas.read_csv()读取 gzip 的数据文件。如何在两个数据帧之间进行差异在 Pandas:两个数据帧的差异 中描述。

相关内容

  • 没有找到相关文章

最新更新