Pandas Merge是否有任何适用于中型数据集的替代方案?



我有两个CSV数据集,分别为57 MB(387427L,22C(和32 MB(569400L,9C(,并已将它们加载到Pandas数据帧中。

p = pd.read_csv('Dataset/p_data.csv')
w = pd.read_csv('Dataset/w_data.csv')

当我尝试进行合并时,我遇到了"内存错误"。我的电脑有一个英特尔i5和8GB内存,我正在使用Conda和Python 3.6。

g = p.merge(w, on=['X_ID']) 

我寻找了几种解决方案,例如使用 Dask 和 Sqlite 的解决方法,但它们给了我同样的问题。箭头没有合并功能。

有人可以帮我吗?

请尝试以下操作:

g = p.merge(w, on=['X_ID'], how = 'outer')

它对我有用。

相关内容

最新更新