我正在尝试将机器学习(Python与scikit-learn)应用于存储在CSV文件中的大数据,该文件约为2.2 gb。
由于这是一个部分经验过程,我需要多次运行脚本,这导致pandas.read_csv()
函数被一遍又一遍地调用,这需要很多时间。
显然,这是非常耗时的,所以我想一定有一种方法可以使读取数据的过程更快——比如以不同的格式存储数据或以某种方式缓存数据。
代码示例中的解决方案将是伟大的!
我将以下列格式之一存储已解析的df:
- HDF5(速度快,支持条件读取/查询,支持多种压缩方法,支持不同的工具/语言)
- Feather(非常快-在SSD驱动器上使用是有意义的)
- 泡菜(fast)
他们都非常快
PS知道你要存储什么类型的数据是很重要的,因为它可能会极大地影响速度