Python多处理:提取一个包含许多小对象(约560万)的大zip文件(约8GB)



我有一个大小接近8GB的大zip文件,它由许多(约560万(小文件组成,每个文件约1-20kb。我试着用linux解压缩来提取它,但它太慢了。其他一些答案建议使用其他可以更快的linux软件包,但我无法安装其中任何一个,因为我没有对机器的sudo访问权限。

我想知道是否有一种方法可以在python中使用多个核心来更快地完成这项工作?我对此有点陌生,我检查了同一主题的另一个问题,(python并行处理以解压缩文件(,但作者提到它并没有提高速度。

有人对我该怎么做有什么建议吗?

与通常用于解压缩的库/程序相比,滚动自己的解压缩代码不太可能提高性能。如果您认为还有其他程序可以比标准的unzip命令更快地解压缩文件,那么您可以在不使用sudo的情况下从源代码安装它们。只需构建它们,然后跳过实际的";安装";步程序的可执行文件应该在本地某个生成目录中可用。

最新更新