线程"main" java.io.IOException 中的异常:不完整的 HDFS URI,无主机:hdfs Spark RDD



我正试图用Spark:将文本文件的内容保存在hdfs中

 import org.apache.spark.{SparkContext, SparkConf}
  object FormatTlfHdfs {   def main(args : Array[String]) {
     val conf = new SparkConf().setAppName("Clean data")
                  .setMaster("local").setSparkHome("/usr/lib/spark")
     val sc = new SparkContext(conf)
     var vertices = sc.textFile("hdfs:///user/cloudera/dstlf.txt").flatMap{ 
       line => line.split("\s+") }.distinct()

我得到错误:

线程"main"java.io.IOException:HDFS URI不完整,无主机:hdfs:///user/cloudera/metadata-lookup-tlf

做hdfs-dfs-ls看起来是正确的

cloudera@quickstart grafoTelefonos]$ hdfs dfs -ls /user/cloudera 
Found 6 items 
drwx------   - cloudera cloudera          0 2016-02-04 18:37 /user/cloudera/.Trash 
drwxr-xr-x   - cloudera cloudera          0 2016-05-02 13:38 /user/cloudera/.sparkStaging
-rw-r--r--   1 cloudera cloudera       1294 2016-05-02 13:34 /user/cloudera /dstlf.txt

错误似乎很明显。。。

HDFS URI不完整,没有主机:hdfs:///user/cloudera/metadata-lookup-tlf

你没有指定像这样的主机

hdfs://quickstart:<hdfs_port>/user/cloudera...

你可能不需要<hdfs_port>,但它没有坏处。我认为正确的端口是8020,所以你会有

hdfs://quickstart:8020/user/cloudera...

最新更新