建议Python读取100GB .CSV.GZ文件



i有一个.csv.gz"文件,在远程Linux中大100GB。我绝对不想解开它,因为大小会达到1T。

我正在网上寻找阅读文件。我在这里看到的建议

python:从压缩文本文件中读取行

gzip?熊猫?迭代器?

我的导师建议将数据解压缩。

我还需要考虑内存。所以readlines((绝对不是我的考虑。

我想知道是否有人对此有最佳解决方案,因为该文件真的很大,我花了很多时间才能做任何事情。

您可以将文件块中的文件输送到您的python中,并按线路处理为for line in sys.stdin: ...

zcat 100GB.csv.gz | python <my-app>

通过执行:

一一读一行。
import sys
for line in sys.stdin:
    do_sth_with_the_line(line)

您使用以下方式调用此Python脚本:

zcat | python_script.py

最新更新