火花:如何使用联接方法



现在我有 2 个 RDD 要加入,但是当我键入".join"时,我的 IDE 找不到这个符号,它告诉我"无法解析符号连接"。我已经使用 maven 来构建我的项目并重新导入函数来处理我的依赖关系。我错过了一些依赖性吗?有人可以告诉我如何解决它吗?谢谢!

您需要启用以通过导入org.apache.spark.SparkContext._来启用Spark隐式转换,以访问(键,值)对的RDD上可用的额外功能。

import org.apache.spark.SparkContext._
val p1: RDD[(K, V)] = ...
val p2: RDD[(K, W)] = ...
val joined: RDD[(K, (V, W))] = p1.join(p2)

最新更新