Python字典处理大数据

我想知道python字典在处理大数据方面的效率有多高。假设我有两个12 GB的文件，我可以为每个文件创建两个字典吗？在每个文件中，90%的数据是唯一的。接下来我需要这些字典来比较基于关键字的数据。我在一台16GB的机器上尝试了一下，它消耗了所有的内存，并跳过了执行脚本。或者有什么替代python中字典的方法吗？下面是示例代码

for line in fileinput.input(src_one,0,"",0,'r',False):
    line = line.strip()
    TmpArr=line.split('|')
    key=TmpArr[2],TmpArr[3],TmpArr[11],TmpArr[12],TmpArr[13],TmpArr[14],TmpArr[15]
    DictOne[key]=line
for line in fileinput.input(src_two,0,"",0,'r',False):
     line = line.strip()
     TmpArr=line.split('|')
     key=TmpArr[2],TmpArr[3],TmpArr[11],TmpArr[12],TmpArr[13],TmpArr[14],TmpArr[15]
     DictTwo[key]=line

谢谢。

Python字典不是为内存不足的数据而设计的。

然而，有标准的库，即shelve模块。

相关内容

最新更新

热门标签：