小贝子编程

Pyspark数据框架每次运行时返回不同的结果

本文关键字：结果返回运行时数据框架 Pyspark python pyspark
更新时间 : 2023-09-22
英文 : Pyspark dataframe returns different results each time I run

每次我运行一个简单的groupby pyspark返回不同的值，即使我没有对数据框架做任何修改。

下面是我使用的代码:

df = spark.sql('select * from data ORDER BY document_id')
df_check = df.groupby("vacina_descricao_dose").agg(count('paciente_id').alias('paciente_id_count')).orderBy(desc('paciente_id_count')).select("*")
df_check.show(df_check.count(),False)

我运行df_check.show() 3次，列paciente_id_count每次给出不同的值:显示结果(我削减表，这样更容易比较)。

如何预防?

.show()不计算整个操作。

也许您可以尝试以下操作(如果最终行数适合您的驱动器内存):

df = spark.sql('select * from data ORDER BY document_id')
df_check = df.groupby("vacina_descricao_dose").agg(count('paciente_id').alias('paciente_ id_count')).orderBy(desc('paciente_id_count')).select("*")
df_check.toPandas()

Pyspark数据框架每次运行时返回不同的结果

相关内容

最新更新

热门标签：