我用pyspark
配置了日食我正在使用最新版本的Spark和Python。
当我尝试编码某些内容并运行时。我以下是错误。
java.io.IOException: Cannot run program "python": CreateProcess error=2, The system cannot find the file specified
我编写的代码在
下面'''
Created on 23-Dec-2017
@author: lenovo
'''
from pyspark import SparkContext,SparkConf
from builtins import int
#from org.spark.com.PySparkDemo import data
from pyspark.sql import Row
from pyspark.sql.context import SQLContext
conf = SparkConf().setAppName("FileSystem").setMaster("local")
sc=SparkContext(conf=conf)
sqlContext=SQLContext(sc)
a = sc.textFile("C:/Users/lenovo/Desktop/file.txt")
b = a.map(lambda x:x.split(",")).map(lambda x:Row(id=int(x[0]),name=x[1],marks=int(x[2])))
c = sqlContext.createDataFrame(b)
c.show()
请建议
假设您已经安装了pydev
在Windows> Preferences> Pydev>解释器> Python解释器>转到环境
在环境下,您需要给出pyhton.exe
文件的路径,可变名称为PYSPARK_PYTHON
我在Windows 10上遇到了相同的问题:
- Spark版本3.1.1
- Python版本3.9.4
这是我所做的:
-
目录" c: spark conf"有一个文件 Spark-env.sh.template 。我将其更改为 spark-env.cmd 。
-
保留所有现有文本评论。(您必须用:: windows评论替换#)
-
添加了以下行以设置pyspark_python变量。
设置pyspark_python = c: python python.exe
它解决了错误。在stackoverflow上引用此线程:遇到了无法在Pyspark上运行程序