火花 - 哈多普论点



我同时运行 hadoop和 spark,我想使用 hdfs 中的文件作为 spark-submit 的参数,所以我在 hdfs 中用这些文件创建了一个文件夹 例如。/user/hduser/test/input 我想像这样运行火花提交:

$SPARK_HOME/bin/spark-submit --master spark://admin:7077 ./target/scala-2.10/test_2.10-1.0.jar hdfs://user/hduser/test/input

但我不能让它工作,正确的方法是什么?

我得到的错误是:

警告文件输入DStream:查找新文件时出错 java.lang.NullPointerException

检查您是否能够从 Spark 代码访问 HDFS,如果是,则需要在 Scala 导入中添加以下代码行。

import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.Path
import org.apache.spark.SparkFiles

然后在代码中添加以下行

var hadoopConf = new org.apache.hadoop.conf.Configuration()
var fileSystem = FileSystem.get(hadoopConf)
var path = new Path(args(0))

实际上问题在于路径。我不得不使用 hdfs://localhost:9000/user/hduser/...

最新更新