Pyspark错误:py4j.java_gateway:尝试连接到java服务器时发生错误(127.0.0.1:5053



你好,我与Pyspark合作,第一次使用ML包实现了一个情绪分析项目。代码运行良好,但突然出现上面提到的错误:

ERROR:py4j.java_gateway:An error occurred while trying to connect to the Java server (127.0.0.1:50532)
Traceback (most recent call last):
File "C:optsparkspark-2.3.0-bin-hadoop2.7pythonlibpy4j-0.10.6-src.zippy4jjava_gateway.py", line 852, in _get_connection
connection = self.deque.pop()
IndexError: pop from an empty deque
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "C:optsparkspark-2.3.0-bin-hadoop2.7pythonlibpy4j-0.10.6-src.zippy4jjava_gateway.py", line 990, in start
self.socket.connect((self.address, self.port))
ConnectionRefusedError: [WinError 10061] Aucune connexion n’a pu être établie car l’ordinateur cible l’a expressément refusée

有人能帮忙吗?这是完整的错误描述?

如果您正在使用Jupyter nootbook,只需重新启动您的笔记本即可。如果没有,那就重新启动pyspark。这应该能解决问题。发生这种情况是因为您使用了太多的集合或其他与内存相关的问题。

向Spark添加更多资源。例如,如果你在本地模式下工作,下面这样的配置就足够了:

spark = SparkSession.builder 
.appName('app_name') 
.master('local[*]') 
.config('spark.sql.execution.arrow.pyspark.enabled', True) 
.config('spark.sql.session.timeZone', 'UTC') 
.config('spark.driver.memory','32G') 
.config('spark.ui.showConsoleProgress', True) 
.config('spark.sql.repl.eagerEval.enabled', True) 
.getOrCreate()

我在Docker容器中尝试使用PySpark时遇到了这个错误。在我的案例中,错误源于我为Spark分配的资源比Docker所能访问的资源多

我在使用colab时遇到了同样的问题。我终止了当前会话并重新连接。它对我有用!

可能spark UI的端口已经被占用,可能在此错误之前还有其他错误。

也许这可以帮助你:https://stackoverflow.com/questions/32820087/spark-multiple-spark-submit-in-parallel

spark-submit --conf spark.ui.port=5051

相关内容

最新更新