小贝子编程

合并b/w两个DASK数据框架，为MemoryError提供

本文关键字：框架 MemoryError 提供数据 DASK 两个合并 python pandas merge parquet dask
更新时间 : 2023-09-10
英文 : Merge b/w two dask data frame giving MemoryError

阅读镶木quet文件

df_ss_parq = dd.read_parquet("trainSearchStream.parquet/")
df_ai_parq = dd.read_parquet("AdsInfo.parquet/")

合并两个数据集

df_train =(df_ss_parq.merge(df_ai,on="ad_id",how="left")
       ).compute()

RAM：16 GB

我尝试在" ad_id"列上使用索引，这使其更快但显示出相同的错误。

TrainSearchStream尺寸= 17 GB

adsinfo size = 17 gb

有人知道如何解决它？

我建议使用诸如Impala或Drill这样的SQL引擎进行加入，将结果写入新的Parquet文件。Python数据堆栈现在不太适合在内存约束的环境中处理大桌子之间的连接。

最新更新

无法在本地种类群集中装载本地主机路径
不能将带有多个对象的文件从React上载到.net Core 5
在Python中找到蛋糕的最大块数
Mongodb:如何将$facet输出2乘以2合并
添加https到数组的缺失字符串?
如何使用bigquery在带有通配符的字符串列表中测试字符串
如何处理Vuex/Pinia商店中的关系并保持同步?
如何制作一定大小的列表(k)
django多对一关系
Powershell调用- webrequest追加到文件而不是写入
R difftime()产生不正确的间隔
SQL查询从两个表中减去值
r语言 - 如何在闪亮应用的downloadHandler中使用callr::r_bg
如何在熊猫数据框行爆炸与逗号分隔的数字，同时留下不变的行与单个数字和没有逗号?
使用' modelsummary::datasummary_balance '在' R '中删除' N '
PHP中使用关联数组的特定任务出现问题
按数据框分组并拆分为列
使用 Flask 时，为什么要使用 url_for() 方法来提供静态文件？为什么不能只使用相对路径？
Highcharts本地CSV问题
在python龟的比较中超过最大递归深度
Ionic 6 cordova/capacitor社交分享不支持ios
最有效的方法来限制SQL查询使用count(*)的对象在表中?
Flexsearch导出和导入文档索引问题
我如何从一个任务数据框不计算整个数据框拉前五个值?
查找哈希的最小值和最大值
使用group by函数根据现有列获取二进制列的SQL查询
将Laravel关系对象上的字符串转换为整数
如何用新的hhk测试签名迷你过滤器驱动程序
JS选择插入后的元素
根据唯一值合并数据帧

合并b/w两个DASK数据框架，为MemoryError提供

相关内容

最新更新

热门标签：