我试图学习apache spark,但从文档中我无法理解窗口操作是如何工作的。
我有两个工作节点,我使用Kafka Spark Utils从Topic创建DStream。
在这个数据流上,我应用了CCD_ 1函数和CCD_。
我不明白reductionByWindow
是在每个工人身上还是在驱动程序中执行的。
我在谷歌上搜索过,没有任何结果。
有人能给我解释一下吗?
接收和处理数据都发生在工作节点上。驱动程序创建负责数据收集的接收器(在工作节点上),并定期启动作业来处理收集的数据。其他的都是标准的RDD和普通的Spark作业。