Python字典处理大数据



我想知道python字典在处理大数据方面的效率有多高。假设我有两个12 GB的文件,我可以为每个文件创建两个字典吗?在每个文件中,90%的数据是唯一的。接下来我需要这些字典来比较基于关键字的数据。我在一台16GB的机器上尝试了一下,它消耗了所有的内存,并跳过了执行脚本。或者有什么替代python中字典的方法吗?下面是示例代码

for line in fileinput.input(src_one,0,"",0,'r',False):
    line = line.strip()
    TmpArr=line.split('|')
    key=TmpArr[2],TmpArr[3],TmpArr[11],TmpArr[12],TmpArr[13],TmpArr[14],TmpArr[15]
    DictOne[key]=line
for line in fileinput.input(src_two,0,"",0,'r',False):
     line = line.strip()
     TmpArr=line.split('|')
     key=TmpArr[2],TmpArr[3],TmpArr[11],TmpArr[12],TmpArr[13],TmpArr[14],TmpArr[15]
     DictTwo[key]=line

谢谢。

Python字典不是为内存不足的数据而设计的。

然而,有标准的库,即shelve模块。

最新更新