我创建了两个RDD并使用java持久化它们。我已将罐子提交给火花大师。现在,当 spark shell 提示我输入查询时,我已经在两个 RDD 上给出了一个 SQL 语句连接条件;然后,它在对结果集执行 collect() 时引发异常。
连接条件:从TABLE_1中选择 a.ID 作为 JOIN TABLE_2 b ON a.NAME = b.NAME;
异常:结果集.collect() 上的空指针异常
PS:我已经在resultSet.collect()之前检查了结果集是否为空;但它仍然进入条件并抛出NPE。 我正在使用 spark-sql-1.1.1 jar(最新)。
SPARK SQL中的JOIN是否存在问题?
看起来Java Spark API在某些JOIN操作方面存在问题。当我尝试使用斯卡拉时,它有效