使用Cython和Pandas读取TXT文件



我有一个将近4GB的庞大数据集(文本文件(,希望使用pandas数据帧处理该数据集。我可以读取文件,但读取所有数据需要几分钟时间。

因此,我想使用Cython库来利用C的速度。

我很难找到如何使用Cython将文本文件读取到pandas数据帧中。

任何指导都会有所帮助。

读取一次,并将其存储为具有更快I/O的其他文件格式(例如HDF、pickle(。你很可能会看到10x-20倍的改进。

官方文档中对每种文件格式的I/O速度和磁盘空间进行了粗略比较:https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#performance-注意事项

最新更新