i有一个.csv.gz"文件,在远程Linux中大100GB。我绝对不想解开它,因为大小会达到1T。
我正在网上寻找阅读文件。我在这里看到的建议
python:从压缩文本文件中读取行
gzip?熊猫?迭代器?
我的导师建议将数据解压缩。
我还需要考虑内存。所以readlines((绝对不是我的考虑。
我想知道是否有人对此有最佳解决方案,因为该文件真的很大,我花了很多时间才能做任何事情。
您可以将文件块中的文件输送到您的python中,并按线路处理为for line in sys.stdin: ...
:
zcat 100GB.csv.gz | python <my-app>
通过执行:
一一读一行。import sys
for line in sys.stdin:
do_sth_with_the_line(line)
您使用以下方式调用此Python脚本:
zcat | python_script.py