HDF5 和空间索引



我有一个很大的数据集,1100万行,我把数据加载到熊猫中。 然后我想构建一个空间索引,如 rtree 或 quad tree,但是当我将其推送到内存中时,它会消耗大量 RAM 以及已经读取的大文件。

为了帮助减少内存占用,我正在考虑尝试将索引推送到磁盘。你能把树存储在一个表中吗?甚至是数据帧并将其存储在 hdf 表中? 有没有更好的策略?

谢谢

是的,r树可以很容易地存储在磁盘上。(KD树和四叉树要难得多(

这就是为什么索引是面向块的 - 块大小的选择是为了匹配小时驱动。

我不使用熊猫,也不会给图书馆推荐。

相关内容

  • 没有找到相关文章

最新更新