Spark问题:如果我不缓存数据帧,那么它将被运行多次



如果我不缓存使用带有限制选项的spark SQL生成的数据帧,那么每当我编辑并显示结果的数据帧时,我会有不稳定的结果吗?

说明。

我有一个如下表,它是通过使用带有限制选项的spark SQL生成的:

+---------+---+---+---+---+
|partition|   |  0|  1|  2|
+---------+---+---+---+---+
|        0|  0|  0| 10| 18|
|        1|  0|  0| 10| 17|
|        2|  0|  0| 13| 17|
+---------+---+---+---+---+

如果我添加一列以获得行和,并再次添加show(),则数据帧具有不同的项,如下所示:

+---------+---+---+---+---+-------+-----------+------------+------------------+------------------+
|partition|   |  0|  1|  2|row_sum|percent of |percent of 0|      percent of 1|      percent of 2|
+---------+---+---+---+---+-------+-----------+------------+------------------+------------------+
|        0|  0|  0| 10| 13|     23|        0.0|         0.0| 43.47826086956522| 56.52173913043478|
|        1|  0|  0| 13| 16|     29|        0.0|         0.0|44.827586206896555|55.172413793103445|
|        2|  0|  0| 15| 14|     29|        0.0|         0.0|51.724137931034484|48.275862068965516|
+---------+---+---+---+---+-------+-----------+------------+------------------+------------------+

我怀疑,用于编辑从第一个spark SQL查询获得的原始数据帧的代码将导致重新运行第一个spark SQL查询并根据新结果进行编辑。

这是真的吗?

spark中的

Cache()是一个转换,当您对该数据帧调用任何操作时,它都会被延迟求值。

现在,如果您正在编写一个使用limit只获取10条记录的查询,那么当您对其调用类似show的操作时,它将具体化代码,并在那时获取10条纪录。现在,如果你没有缓存数据帧,如果你执行了多次转换,并再次对新创建的数据帧执行一个操作,那么spark将从图的根执行转换,这就是为什么如果你不缓存该数据帧,每次都会看到不同的输出。

相关内容

最新更新