来自大型无序csv文件的dask set_index



冒着偏离主题的风险,我想展示一个在dask数据帧中加载大型csv文件的简单解决方案,其中可以应用选项sorted=True,并节省大量处理时间。

我发现在dask中执行set_index的选项对于我用于学习的玩具集群的大小和文件的大小(33GB)来说是不可行的。

因此,如果您的问题是将大型未排序的CSV文件(几十GB)加载到dask数据帧中,并快速开始执行分组,我的建议是之前使用unix命令"排序"对它们进行排序。

排序处理需求可以忽略不计,它不会将您的RAM限制推到无法管理的限制之外。您可以定义要运行/排序的并行进程的数量,以及用作缓冲区的ram。只要你有磁盘空间,这个就很震撼。

这里的技巧是在发出命令之前在您的环境中导出LC_ALL=C。无论哪种方式,pandas/dask排序和unix排序都会产生不同的结果。

这是我使用的代码

export LC_ALL=C
zcat BigFat.csv.gz |
fgrep -v ( have headers?? take them away)|
sort -key=1,1 -t "," ( fancy multi field sorting/index ? -key=3,3 -key=4,4)|
split -l 10000000 ( partitions ??)

结果已准备好进行

ddf=dd.read_csv(.....)
ddf.set_index(ddf.mykey,sorted=True)

希望这能帮助

JC-

如上所述,我只是将此作为问题的解决方案发布。希望对他人有效。

我并不是说这是最好、最高效或更蟒蛇的!:-)

最新更新