我有一个groupby,我想将其作为pyspark数据帧,因为我需要将生成的数据与我拥有的另一个数据集连接起来。
所以基本上,我只希望这个表是一个数据帧,我可以对它执行数据帧操作
DATE | COUNT |
---|---|
2019年12月1日 | 583 |
2020年2月14日 | 421 |
只需使用赋值运算符通过声明变量来保存数据帧:
df = crash_orig.groupBy('Date').count().sort(desc('count'))
df.show()