运行pyspark程序时找不到文件



我是pyspark的新手,我想在独立集群中运行pyspark程序,我按照本教程中的步骤,使用以下命令启动我的程序:

binspark-submit examplessrcmainpythonLSI_MapReduceLSI.py下面是我的代码中发生错误的部分:

# load the dataset 
rows = np.loadtxt('first.txt') <----- here
rows = sc.parallelize(rows)
mat = RowMatrix(rows)
# compute SVD 
svd = mat.computeSVD(20, computeU=True)

我的代码的第一步确实运行良好,我得到了这个错误:

in the line 200 FileNotFoundError: first.txt not found.

LSI_MapReduce文件夹有一个名为first.txt的文件在与LSI.py相同的位置

当我在VScode上运行程序时

如何修复这个错误?

我将非常感谢任何帮助。

Python,通过Numpy,(不是Spark)试图从你运行Python解释器的地方读取文件,

链接中的单词计数示例读取README。bin文件夹旁边的Md文件,所以如果你在那里启动命令,你的文件就需要在那里。否则,cd到文件所在的示例文件夹

另外,Spark本身可以读取文本文件或csv文件;所以你不需要numpy来做这个

最新更新