我想知道,在火花RDD上rdd.unpersist()
操作的成本有多高?存储级别设置会影响此操作的性能吗?任何基准(结果/技术)都将非常有帮助。
>unpersist
从缓存(内存和磁盘)中释放RDD并删除它所依赖的随机文件。为此,它需要向执行者发送消息。它应该是你可以用RDD做的最便宜的操作 - 可能不值得基准测试。
另请注意,当RDD被垃圾回收时,会自动调用unpersist
。因此,无论如何您都无法避免此成本。