小贝子编程

Hadoop:spark作业无法处理小数据集

我们的轨迹数据挖掘代码以2M的数据很快完成，但由于许多失败的任务，它以20M等更大的数据失败。我们试图增加内存，但还是失败了。我们有3台机器集群，具有4个核心和32GB RAM。我们的配置是

spark.executor.memory 26g 
spark.executor.cores 2 
spark.driver.memory 6g

错误信息出现在我们试图解决问题的时候，比如"；丢失混洗位置的输出"执行器失败的最大数目(3(达到"；。

这似乎不是内存问题。是否启用了动态资源分配-spark.dynamicAllocation.enabled？这将动态地增加你的执行人数，直到达到物理限制。此外，希望您以集群模式提交作业。

https://spark.apache.org/docs/latest/job-scheduling.html#dynamic-资源分配

相关内容