我正在尝试将本地运行的PySpark会话连接到DataProc集群。我希望能够在不下载的情况下处理gcs上的文件。我的目标是使用本地Spark执行特别分析,然后在准备扩展时切换到更大的集群。我意识到DataProc在Yarn上运行Spark,并且我已经在本地复制了Yarn-site.xml。我还打开了一个从本地机器到DataProc主节点的ssh隧道,并为yarn xml中标识的端口设置了端口转发。不过,它似乎不起作用,当我试图在Jupyter笔记本中创建会话时,它会无限期地挂起。我在stdout或DataProc日志中看不到任何内容。有人在这方面取得了成功吗?
对于任何感兴趣的人,我最终放弃了这种方法。相反,我在主节点上运行Jupyter Enterprise Gateway,设置端口转发,然后在本地启动笔记本电脑以连接到服务器上运行的内核。到目前为止效果非常好。