任务结果在Spark上是如何处理的?



我是Spark的新手,我目前正在尝试理解Spark的架构。据我所知,spark集群管理器将任务分配给工作节点,并向它们发送数据分区。在那里,每个工作节点在其自己的特定数据分区上执行转换(如映射等)。

我不明白的是:从各个工人的这些转换的所有结果去哪里?它们是否被发送回集群管理器/驱动程序并在那里减少(例如每个唯一键的值之和)?如果有,有什么具体的方法吗?

如果有人能给我启发就太好了,无论是spark文档还是其他关于架构的资源都不能做到这一点。

好问题,我想你是在问洗牌是如何工作的…

这是一个很好的解释。在Apache Spark中什么时候会发生洗牌?

最新更新