使用python读写大数据

我正在使用csv模块(读取)读取csv文件，并将其操纵为大于5 GB的大尺寸。并使用CSV模块(write)将其写入另一个CSV。读取数据是好的，但在数据被处理之后。它变得很大，超过了一百万张唱片。因此，在运行代码时，它显示内存错误。所以我试着把它分块写出来。我没有使用pandas，因为它很慢，我在需要几天才能完成之前尝试过，所以我使用csv模块来读写。我不知道如何在块中写入csv文件以避免内存问题。

我想写到csv文件块。我首先读取csv头并首先写入它，然后我将其他体数据循环到相同的csv文件。如何使用csv模块而不是pandas以块的形式编写正文数据。

您在正确的路径上:读取一行，处理它，并使用csv模块立即将处理后的结果写出来。我不知道在Python中处理(大型)CSV文件的内存消耗更少的方法。

我认为你的程序最大的问题是它没有做正确的事情。

给定这个简单输入:

column
1234(00-01)
1234(00-01)

我相信你期望这样的输出:

tbody> <<tr>

column	column_modified
1234 (00-01)	123400
1234 (00-01)	123401

相关内容

最新更新

热门标签：