所以我要尝试关注本笔记本并将其在Databricks笔记本上工作:https://github.com/johnsnowlabs/spark-nlp-workshop/blob/blob/blob/master/jupyter/jupyter/jupyter/ocr-spell/ocrospellchecking.ipynb;但是,安装了所有软件包后,我仍然会陷入
的时间。{ // for displaying
val regions = data.select("region").collect().map(_.get(0))
regions.foreach{chunk =>
println("---------------")
println(chunk)}
}
错误消息是:
org.apache.spark.sparkexception:由于阶段失败而流产的工作:阶段3.0中的任务0失败4次,最近的失败:丢失任务0.3阶段3.0(TID 51,10.195.249.145,executor 4)。
有人知道为什么吗?非常感谢!
要使用Spark NLP OCR,您需要按照文档所述安装Tesseract 4.x 。在群集中,您必须在所有节点上都有这个。但是,如果您只是处理PDF而不是扫描图像,则可能会跳过Tesseract 4.x 安装:
import com.johnsnowlabs.nlp.util.io.OcrHelper
val ocrHelper = new OcrHelper()
val df = ocrHelper.createDataset(spark, "/tmp/Test.pdf")
UPDATE :有一个用于Spark OCR的新文档,Databricks的特殊说明:
https://nlp.johnsnowlabs.com/docs/en/ocr