小贝子编程

PySpark在Google Cloud Dataproc中太慢了

本文关键字：Dataproc Google Cloud PySpark apache-spark google-cloud-platform google-cloud-dataproc
更新时间 : 2023-09-16
英文 : PySpark too slow in Google Cloud Dataproc

我将PySpark ML模型部署到Google Cloud Dataproc集群中，它运行了一个多小时，但我的数据大约是800 MB。

在我的 SparkSession 上声明为主节点需要什么吗？我设置了默认选项"本地"。

当您传递local部署模式选项以SparkContext它在单个 VM 上本地执行应用程序时，为了避免这种情况，您不应在SparkContext构造函数中传递任何选项 - 它将使用 Dataproc 的预配置属性，并利用所有群集资源/节点在 YARN 上运行应用程序。

最新更新

SwiftUI：Foreach in List - 有什么优势？
如何加载所有转储附加的字典在python pickle?
Jmeter语言 - 当前活动线程
Java作用域问题:try-catch块，解析字符串到日期
如何在主应用中获得UWP应用服务的通知?
复选框的定位
弹簧启动-采用与2个ymls不同的属性
Symfony 5.3+翻译提供商Crowdin不更新本地文件
从文本文件(.txt)中读取字节数组
如何下载完整的雅典娜查询结果到CSV文件
pyspark:在执行join - restrict相同列名选择时设置别名
如何在Eclipse RCP中隐藏/删除Preferences对话框中的导入/导出按钮
在自定义jackson反序列化器中以响应式方式从db加载实体
使用RestSharp从API返回JSON数据
OAuth同意屏幕不显示正确的AppName
使用ByRef更新记录集字段
提取多个XML文件中所有标签之间的文本，并将提取的文本复制到csv文件中
在Laravel和Vue之间共享数据的糟糕方式
可以在Azure Devops中找到需求文本文件
如何在tensorflow keras中引用ground truth变量?
Json解析并分配给DTO
如何通过不重复结果来正确地循环一个范围
给出零最优值的AMPL程序
再次出现身份验证问题，GCP源存储库使用publickey
打印添加到数据库的记录数有问题
如何插入一行到一个表在sql是完全相同的另一个表，但只有一个列不同?
如何在jupyter notebook中导入两个或多个包?
对product类型的访问器进行泛型迭代
如何在 react 中"remember"昂贵的递归函数中先前计算的值？
在eclipse IDE上使用Tomcat服务器在本地机器上修复eclipse上的编译错误，我能做些什么?

PySpark在Google Cloud Dataproc中太慢了

相关内容

最新更新

热门标签：