Dask / pandas分类转换差异



我正在管理大多数分类数据的大于内存的csv文件。最初,我习惯于创建一个大的csv文件,然后通过Pandas read_csv读取它,转换为分类并保存到hdf5。一旦进入分类格式,它就很适合内存。

文件正在增长,我转移到Dask。同样的过程。

然而,在空字段中,Pandas似乎使用了np。而楠类则不包括在猫中。类别清单。

使用Dask,空值用NaN填充,它被作为一个单独的类别包含,并保存到HDF中,我得到未来兼容性警告。

这是一个错误还是我错过了任何步骤?熊猫和任务的行为似乎有所不同。

感谢

JC

这在dask ver 0.11.1中解决了

见https://github.com/dask/dask/pull/1578

最新更新