小贝子编程

由于最大迭代参数增加，LDA过程在Pyspark中失败

本文关键字：过程 Pyspark 失败 LDA 于最大迭代参数增加 apache-spark pyspark lda
更新时间 : 2023-09-07
英文 : LDA process failing in PySpark due to increased max iteration parameter

我使用Amazon EMR上的4个r3.4xlarge实例在〜300K文档上运行LDA。使用k=800主题，Mini Batch fraction = 0.2和maxIter=20（或10），作业完成，但是如果我将Maxiter增加到30，则作业会失败。我很难理解为什么增加最大迭代会导致工作失败。我尝试使用检查点来玩耍，但是我不确定这将如何有所帮助（在这方面，Spark Code并不是完全自我记录的）。有人遇到类似问题吗？

清单：

您是否启用了检查点（setCheckpointInterval）？
- 如果是，您是否设置了检查点目录？
  - 如果没有设置检查点目录：
```
sc.setCheckpointDir(...)
```
  - 如果是，请确认检查点实际上是编写的，并且设备上有足够的空间。
- 如果没有启用检查点。

由于最大迭代参数增加，LDA过程在Pyspark中失败

相关内容

最新更新

热门标签：