使用pandas缓存CSV-read数据以用于多次运行



我正在尝试将机器学习(Python与scikit-learn)应用于存储在CSV文件中的大数据,该文件约为2.2 gb。

由于这是一个部分经验过程,我需要多次运行脚本,这导致pandas.read_csv()函数被一遍又一遍地调用,这需要很多时间。

显然,这是非常耗时的,所以我想一定有一种方法可以使读取数据的过程更快——比如以不同的格式存储数据或以某种方式缓存数据。

代码示例中的解决方案将是伟大的!

我将以下列格式之一存储已解析的df:

  • HDF5(速度快,支持条件读取/查询,支持多种压缩方法,支持不同的工具/语言)
  • Feather(非常快-在SSD驱动器上使用是有意义的)
  • 泡菜(fast)

他们都非常快

PS知道你要存储什么类型的数据是很重要的,因为它可能会极大地影响速度

最新更新