小贝子编程

pySpark:是否可以为每个组使用一个节点的 groupBy()

本文关键字：一个 groupBy 节点是否 pySpark apache-spark parallel-processing group-by pyspark apache-spark-sql
更新时间 : 2023-09-07
英文 : pySpark: is it possible to groupBy() with one single node per group?

我正在使用pySpark来计算每组矩阵。如果Spark将任何给定组的行存储在一个节点上，计算速度看起来会更快，因此Spark可以在本地计算每个矩阵。恐怕节点间合作可能需要更长的时间。

map()和groupBy()通常都能实现这种事情吗？如果可能的话，我应该尝试将其指定为一个选项吗？

铌。矩阵包括计算每个（排序）组中每行与前一行之间的距离。

似乎Spark默认情况下会这样做。

看这里： http://backtobazics.com/big-data/spark/apache-spark-groupby-example/

我猜你要求mapPartitions().然后，操作在每个分区中本地发生。

相关内容