rdd在spark中可以持久化多长时间



我写了一个程序,我在spark流中持久化RDD,这样一旦新的RDD来自spark流,我就可以将以前缓存的RDD与新的RDD连接起来。是否有一种方法可以为这个持久化rdd设置生存时间,以便我可以确保我没有加入我在上一个流周期中已经获得的rdd。

如果有人能解释和指出持久性是如何在rdd中工作的,就像当我从spark上下文中获得持久性rdd时,我如何将这些rdd连接到我现有的rdd中,那就太好了。

在Spark Streaming中,由Streaming进程生成的RDD的生存时间由spark.cleaner.ttl配置控制。它的默认值是infinite,但是为了使它生效,我们还需要将spark.streaming.unpersist设置为false,以便Spark流式传输生成rdd。

最新更新