我是pyspark的新手,我想在独立集群中运行pyspark程序,我按照本教程中的步骤,使用以下命令启动我的程序:
binspark-submit examplessrcmainpythonLSI_MapReduceLSI.py
下面是我的代码中发生错误的部分:
# load the dataset
rows = np.loadtxt('first.txt') <----- here
rows = sc.parallelize(rows)
mat = RowMatrix(rows)
# compute SVD
svd = mat.computeSVD(20, computeU=True)
我的代码的第一步确实运行良好,我得到了这个错误:
in the line 200 FileNotFoundError: first.txt not found.
LSI_MapReduce
文件夹有一个名为first.txt的文件在与LSI.py
相同的位置
当我在VScode上运行程序时
如何修复这个错误?
我将非常感谢任何帮助。
Python,通过Numpy,(不是Spark)试图从你运行Python解释器的地方读取文件,
链接中的单词计数示例读取README。bin文件夹旁边的Md文件,所以如果你在那里启动命令,你的文件就需要在那里。否则,cd到文件所在的示例文件夹
另外,Spark本身可以读取文本文件或csv文件;所以你不需要numpy来做这个