我将PySpark ML模型部署到Google Cloud Dataproc集群中,它运行了一个多小时,但我的数据大约是800 MB。
在我的 SparkSession 上声明为主节点需要什么吗?我设置了默认选项"本地"。
当您传递local
部署模式选项以SparkContext
它在单个 VM 上本地执行应用程序时,为了避免这种情况,您不应在SparkContext
构造函数中传递任何选项 - 它将使用 Dataproc 的预配置属性,并利用所有群集资源/节点在 YARN 上运行应用程序。