无法让 johnsnow OCR 笔记本在数据砖上运行

所以我要尝试关注本笔记本并将其在Databricks笔记本上工作：https：//github.com/johnsnowlabs/spark-nlp-workshop/blob/blob/blob/master/jupyter/jupyter/jupyter/ocr-spell/ocrospellchecking.ipynb;但是，安装了所有软件包后，我仍然会陷入

的时间。

{ // for displaying
val regions = data.select("region").collect().map(_.get(0))
regions.foreach{chunk =>
    println("---------------")
    println(chunk)}
}

错误消息是：

org.apache.spark.sparkexception：由于阶段失败而流产的工作：阶段3.0中的任务0失败4次，最近的失败：丢失任务0.3阶段3.0（TID 51，10.195.249.145，executor 4）。

有人知道为什么吗？非常感谢！

要使用Spark NLP OCR，您需要按照文档所述安装Tesseract 4.x 。在群集中，您必须在所有节点上都有这个。但是，如果您只是处理PDF而不是扫描图像，则可能会跳过Tesseract 4.x 安装：

import com.johnsnowlabs.nlp.util.io.OcrHelper
val ocrHelper = new OcrHelper()
val df = ocrHelper.createDataset(spark, "/tmp/Test.pdf")

UPDATE ：有一个用于Spark OCR的新文档，Databricks的特殊说明：

https://nlp.johnsnowlabs.com/docs/en/ocr

相关内容

最新更新

热门标签：