Pyspark数据框架每次运行时返回不同的结果



每次我运行一个简单的groupby pyspark返回不同的值,即使我没有对数据框架做任何修改。

下面是我使用的代码:
df = spark.sql('select * from data ORDER BY document_id')
df_check = df.groupby("vacina_descricao_dose").agg(count('paciente_id').alias('paciente_id_count')).orderBy(desc('paciente_id_count')).select("*")
df_check.show(df_check.count(),False)

我运行df_check.show() 3次,列paciente_id_count每次给出不同的值:显示结果(我削减表,这样更容易比较)。

如何预防?

.show()不计算整个操作。

也许您可以尝试以下操作(如果最终行数适合您的驱动器内存):

df = spark.sql('select * from data ORDER BY document_id')
df_check = df.groupby("vacina_descricao_dose").agg(count('paciente_id').alias('paciente_ id_count')).orderBy(desc('paciente_id_count')).select("*")
df_check.toPandas()

最新更新