如何在apachebeam中实现groupby(column1,column2)



我需要帮助在python中为以下Spark sql代码编写类似的beam代码。

count_mnm_df = (mnm_df
.select("State", "Color", "Count") 
.groupBy("State", "Color") 
.agg(count("Count").alias("Total")) 
.orderBy("Total", ascending=False)

可能最直接的映射是Beam SQL。请参阅此处了解更多信息。请参阅此处以获取相应的Python转换,其中还包含有关用法的信息。请注意,对Python SDK的支持是通过Beam的跨语言转换支持实现的,这是相对较新的。

也可以考虑使用执行相同计算的可用梁变换来编写梁管道。

请注意,Beam并不保证PCollection的元素的顺序。

最新更新