火花交叉点实现



Spark如何实现交集方法?是否需要 2 个 RDD 才能在一台计算机上共置?

从这里开始,它说它使用哈希表,这有点奇怪,因为它可能不可扩展,对两个rdd进行排序,然后逐项比较可能提供了一个更具可扩展性的解决方案。

欢迎对这个主题有任何想法

它绝对不需要RDD在一台机器上托管。您可以只查看代码以了解详细信息。看起来它使用了一个共同组。