您能帮我提供有关如何在IBM的数据科学体验上为PySpark会话设置检查点目录的说明吗?
需要是因为我必须从 GraphFrame 运行connectedComponents()
,它会引发以下错误
Py4JJavaError: An error occurred while calling o221.run.
: java.io.IOException: Checkpoint directory is not set. Please set it first using sc.setCheckpointDir().
主要问题是获取笔记本具有的目录作为工作目录,以使用 sc.setCheckpointDir()
设置检查程序目录。 这可以通过
!pwd
然后,应在该路由上创建检查点目录
!mkdir <pwd_output>/checkpoints
最后设置检查点
spark.sparkContext.setCheckpointDir('<pwd_output>/checkpoints')