运行pyspark程序时找不到文件

我是pyspark的新手，我想在独立集群中运行pyspark程序，我按照本教程中的步骤，使用以下命令启动我的程序:

binspark-submit examplessrcmainpythonLSI_MapReduceLSI.py下面是我的代码中发生错误的部分:

# load the dataset 
rows = np.loadtxt('first.txt') <----- here
rows = sc.parallelize(rows)
mat = RowMatrix(rows)
# compute SVD 
svd = mat.computeSVD(20, computeU=True)

我的代码的第一步确实运行良好，我得到了这个错误:

in the line 200 FileNotFoundError: first.txt not found.

LSI_MapReduce文件夹有一个名为first.txt的文件在与LSI.py相同的位置

当我在VScode上运行程序时

如何修复这个错误?

我将非常感谢任何帮助。

Python，通过Numpy，(不是Spark)试图从你运行Python解释器的地方读取文件，

链接中的单词计数示例读取README。bin文件夹旁边的Md文件，所以如果你在那里启动命令，你的文件就需要在那里。否则，cd到文件所在的示例文件夹

另外，Spark本身可以读取文本文件或csv文件;所以你不需要numpy来做这个

相关内容

最新更新

热门标签：