我使用Amazon EMR上的4个r3.4xlarge
实例在〜300K文档上运行LDA。使用k=800
主题,Mini Batch fraction = 0.2
和maxIter=20
(或10),作业完成,但是如果我将Maxiter增加到30,则作业会失败。我很难理解为什么增加最大迭代会导致工作失败。我尝试使用检查点来玩耍,但是我不确定这将如何有所帮助(在这方面,Spark Code并不是完全自我记录的)。有人遇到类似问题吗?
清单:
-
您是否启用了检查点(
setCheckpointInterval
)?-
如果是,您是否设置了检查点目录?
-
如果没有设置检查点目录:
sc.setCheckpointDir(...)
-
如果是,请确认检查点实际上是编写的,并且设备上有足够的空间。
-
-
如果没有启用检查点。
-