小贝子编程

使用pandas缓存CSV-read数据以用于多次运行

我正在尝试将机器学习(Python与scikit-learn)应用于存储在CSV文件中的大数据，该文件约为2.2 gb。

由于这是一个部分经验过程，我需要多次运行脚本，这导致pandas.read_csv()函数被一遍又一遍地调用，这需要很多时间。

显然，这是非常耗时的，所以我想一定有一种方法可以使读取数据的过程更快——比如以不同的格式存储数据或以某种方式缓存数据。

代码示例中的解决方案将是伟大的!

我将以下列格式之一存储已解析的df:

他们都非常快

PS知道你要存储什么类型的数据是很重要的，因为它可能会极大地影响速度

相关内容