在使用createOrReplaceTempView
创建临时内存表时,内存中临时表如何以及存储在节点中的什么位置?
是在每个工作节点还是主节点中创建整个表?或数据是否已分区并分布在所有群集节点上?
最后,使用 createOrReplaceTempView
加载内存中包含 1 亿 + 条记录的巨大表是个好主意吗?
PySpark SQL 视图是延迟计算的,这意味着它不会保留在内存中,除非您使用 cache() 方法缓存数据集。
来源: https://sparkbyexamples.com/pyspark/pyspark-createorreplacetempview/