使用python读写大数据



我正在使用csv模块(读取)读取csv文件,并将其操纵为大于5 GB的大尺寸。并使用CSV模块(write)将其写入另一个CSV。读取数据是好的,但在数据被处理之后。它变得很大,超过了一百万张唱片。因此,在运行代码时,它显示内存错误。所以我试着把它分块写出来。我没有使用pandas,因为它很慢,我在需要几天才能完成之前尝试过,所以我使用csv模块来读写。我不知道如何在块中写入csv文件以避免内存问题。

我想写到csv文件块。我首先读取csv头并首先写入它,然后我将其他体数据循环到相同的csv文件。如何使用csv模块而不是pandas以块的形式编写正文数据。

您在正确的路径上:读取一行,处理它,并使用csv模块立即将处理后的结果写出来。我不知道在Python中处理(大型)CSV文件的内存消耗更少的方法。

我认为你的程序最大的问题是它没有做正确的事情。

给定这个简单输入:

column
1234(00-01)
1234(00-01)

我相信你期望这样的输出:

tbody> <<tr>
columncolumn_modified
1234 (00-01)123400
1234 (00-01)123401

最新更新