你好,我与Pyspark合作,第一次使用ML包实现了一个情绪分析项目。代码运行良好,但突然出现上面提到的错误:
ERROR:py4j.java_gateway:An error occurred while trying to connect to the Java server (127.0.0.1:50532)
Traceback (most recent call last):
File "C:optsparkspark-2.3.0-bin-hadoop2.7pythonlibpy4j-0.10.6-src.zippy4jjava_gateway.py", line 852, in _get_connection
connection = self.deque.pop()
IndexError: pop from an empty deque
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
File "C:optsparkspark-2.3.0-bin-hadoop2.7pythonlibpy4j-0.10.6-src.zippy4jjava_gateway.py", line 990, in start
self.socket.connect((self.address, self.port))
ConnectionRefusedError: [WinError 10061] Aucune connexion n’a pu être établie car l’ordinateur cible l’a expressément refusée
有人能帮忙吗?这是完整的错误描述?
如果您正在使用Jupyter nootbook,只需重新启动您的笔记本即可。如果没有,那就重新启动pyspark。这应该能解决问题。发生这种情况是因为您使用了太多的集合或其他与内存相关的问题。
向Spark添加更多资源。例如,如果你在本地模式下工作,下面这样的配置就足够了:
spark = SparkSession.builder
.appName('app_name')
.master('local[*]')
.config('spark.sql.execution.arrow.pyspark.enabled', True)
.config('spark.sql.session.timeZone', 'UTC')
.config('spark.driver.memory','32G')
.config('spark.ui.showConsoleProgress', True)
.config('spark.sql.repl.eagerEval.enabled', True)
.getOrCreate()
我在Docker容器中尝试使用PySpark时遇到了这个错误。在我的案例中,错误源于我为Spark分配的资源比Docker所能访问的资源多
我在使用colab时遇到了同样的问题。我终止了当前会话并重新连接。它对我有用!
可能spark UI的端口已经被占用,可能在此错误之前还有其他错误。
也许这可以帮助你:https://stackoverflow.com/questions/32820087/spark-multiple-spark-submit-in-parallel
spark-submit --conf spark.ui.port=5051