无法让 johnsnow OCR 笔记本在数据砖上运行



所以我要尝试关注本笔记本并将其在Databricks笔记本上工作:https://github.com/johnsnowlabs/spark-nlp-workshop/blob/blob/blob/master/jupyter/jupyter/jupyter/ocr-spell/ocrospellchecking.ipynb;但是,安装了所有软件包后,我仍然会陷入

的时间。
{ // for displaying
val regions = data.select("region").collect().map(_.get(0))
regions.foreach{chunk =>
    println("---------------")
    println(chunk)}
}

错误消息是:

org.apache.spark.sparkexception:由于阶段失败而流产的工作:阶段3.0中的任务0失败4次,最近的失败:丢失任务0.3阶段3.0(TID 51,10.195.249.145,executor 4)。

有人知道为什么吗?非常感谢!

要使用Spark NLP OCR,您需要按照文档所述安装Tesseract 4.x 。在群集中,您必须在所有节点上都有这个。但是,如果您只是处理PDF而不是扫描图像,则可能会跳过Tesseract 4.x 安装:

import com.johnsnowlabs.nlp.util.io.OcrHelper
val ocrHelper = new OcrHelper()
val df = ocrHelper.createDataset(spark, "/tmp/Test.pdf")

UPDATE :有一个用于Spark OCR的新文档,Databricks的特殊说明:

https://nlp.johnsnowlabs.com/docs/en/ocr

相关内容

最新更新