将PySpark会话连接到DataProc

我正在尝试将本地运行的PySpark会话连接到DataProc集群。我希望能够在不下载的情况下处理gcs上的文件。我的目标是使用本地Spark执行特别分析，然后在准备扩展时切换到更大的集群。我意识到DataProc在Yarn上运行Spark，并且我已经在本地复制了Yarn-site.xml。我还打开了一个从本地机器到DataProc主节点的ssh隧道，并为yarn xml中标识的端口设置了端口转发。不过，它似乎不起作用，当我试图在Jupyter笔记本中创建会话时，它会无限期地挂起。我在stdout或DataProc日志中看不到任何内容。有人在这方面取得了成功吗？

对于任何感兴趣的人，我最终放弃了这种方法。相反，我在主节点上运行Jupyter Enterprise Gateway，设置端口转发，然后在本地启动笔记本电脑以连接到服务器上运行的内核。到目前为止效果非常好。

相关内容

最新更新

热门标签：