火花 - 哈多普论点 - spark - hadoop argument 小贝子编程网

我同时运行 hadoop和 spark，我想使用 hdfs 中的文件作为 spark-submit 的参数，所以我在 hdfs 中用这些文件创建了一个文件夹例如。/user/hduser/test/input 我想像这样运行火花提交：

$SPARK_HOME/bin/spark-submit --master spark://admin:7077 ./target/scala-2.10/test_2.10-1.0.jar hdfs://user/hduser/test/input

但我不能让它工作，正确的方法是什么？

我得到的错误是：

警告文件输入DStream：查找新文件时出错 java.lang.NullPointerException

检查您是否能够从 Spark 代码访问 HDFS，如果是，则需要在 Scala 导入中添加以下代码行。

import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.Path
import org.apache.spark.SparkFiles

然后在代码中添加以下行

var hadoopConf = new org.apache.hadoop.conf.Configuration()
var fileSystem = FileSystem.get(hadoopConf)
var path = new Path(args(0))

实际上问题在于路径。我不得不使用 hdfs://localhost:9000/user/hduser/...

火花 - 哈多普论点