我在 AWS 上为我的 EMR 集群运行多个实例。我有 2 个核心节点实例和 1 个主节点实例
https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/emr.html#EMR.Client.add_job_flow_steps
我正在使用 PySpark 提交作业,但在指定要运行此作业的 CORE 节点时看不到任何内容。我以为这是自动完成的(像循环风格?
有没有办法做到这一点?
您始终将步骤提交给主节点而不是核心节点。然后,主节点会将任务分发给集群的工作线程(核心或任务节点中的 Spark 执行程序(。