我计划在大约100GB的文件上使用mincemeat.py执行地图缩减任务。在看到来自mincemeat的示例代码后,我似乎需要输入一个内存中的字典作为数据源。那么,提供我的大文件作为碎肉的数据源的正确方法是什么呢?
肉糜链接:https://github.com/michaelfairley/mincemeatpy
看看这个例子和概念,我会认为你会理想地:
- 为数据源生成迭代器
- 将文件插入多个服务器上的多个超大文件中,然后
- 合并结果