我正在使用pySpark来计算每组矩阵。如果Spark将任何给定组的行存储在一个节点上,计算速度看起来会更快,因此Spark可以在本地计算每个矩阵。恐怕节点间合作可能需要更长的时间。
map()
和groupBy()
通常都能实现这种事情吗?如果可能的话,我应该尝试将其指定为一个选项吗?
铌。矩阵包括计算每个(排序)组中每行与前一行之间的距离。
似乎Spark默认情况下会这样做。
看这里 : http://backtobazics.com/big-data/spark/apache-spark-groupby-example/
我猜你要求mapPartitions()
.然后,操作在每个分区中本地发生。