小贝子编程

rdd在spark中可以持久化多长时间

本文关键字：持久化长时间 spark rdd apache-spark persistence spark-streaming rdd
更新时间 : 2023-08-23
英文 : how long can RDDs be persisted in spark

我写了一个程序，我在spark流中持久化RDD，这样一旦新的RDD来自spark流，我就可以将以前缓存的RDD与新的RDD连接起来。是否有一种方法可以为这个持久化rdd设置生存时间，以便我可以确保我没有加入我在上一个流周期中已经获得的rdd。

如果有人能解释和指出持久性是如何在rdd中工作的，就像当我从spark上下文中获得持久性rdd时，我如何将这些rdd连接到我现有的rdd中，那就太好了。

在Spark Streaming中，由Streaming进程生成的RDD的生存时间由spark.cleaner.ttl配置控制。它的默认值是infinite，但是为了使它生效，我们还需要将spark.streaming.unpersist设置为false，以便Spark流式传输生成rdd。

相关内容

最新更新