pySpark:是否可以为每个组使用一个节点的 groupBy()



我正在使用pySpark来计算每组矩阵。如果Spark将任何给定组的行存储在一个节点上,计算速度看起来会更快,因此Spark可以在本地计算每个矩阵。恐怕节点间合作可能需要更长的时间。

map()groupBy()通常都能实现这种事情吗?如果可能的话,我应该尝试将其指定为一个选项吗?

铌。矩阵包括计算每个(排序)组中每行与前一行之间的距离。

似乎Spark默认情况下会这样做。

看这里 : http://backtobazics.com/big-data/spark/apache-spark-groupby-example/

我猜你要求mapPartitions().然后,操作在每个分区中本地发生。

相关内容

  • 没有找到相关文章

最新更新