从PostgreSQL / Cassandra延迟创建任务数据框架



据我所知,Dask DataFrame是处理表格数据的合适方法。我在PostgreSQL中有一个表,我知道如何将它加载到pandas.Dataframe .

我知道,odo可以用来将pandas.DataFrame转换为dass .dataframe。但这不是懒惰的操作:这样的转换将整个PostgeSQL表加载到内存中,这是不好的。我更喜欢一个一个地读,或者一个块地读。如何做到这一点?

  • Cassandra也有类似的问题。但Cassandra就像分布式存储,它可以为分布式访问进行优化。但是如何在Dask中做到这一点呢?
  • 对于MongoDB,我创建了以下解决方案:https://gist.github.com/Sklavit/747e292fc17f6c9b400470006ff1c567

    主要思想是创建一个目标名称包,然后将这些参数传递给loader。

    最新更新