我需要帮助在python中为以下Spark sql代码编写类似的beam代码。
count_mnm_df = (mnm_df
.select("State", "Color", "Count")
.groupBy("State", "Color")
.agg(count("Count").alias("Total"))
.orderBy("Total", ascending=False)
可能最直接的映射是Beam SQL。请参阅此处了解更多信息。请参阅此处以获取相应的Python转换,其中还包含有关用法的信息。请注意,对Python SDK的支持是通过Beam的跨语言转换支持实现的,这是相对较新的。
也可以考虑使用执行相同计算的可用梁变换来编写梁管道。
请注意,Beam并不保证PCollection
的元素的顺序。