我想用swift中的tesseract框架扫描文档,并生成可以搜索的pdf文件。
实际上,我使用这个代码将图像转换为文本,但我想以主格式生成图片,但格式会随着转换为文本而改变,并生成pdf文件。我的代码是:
func recognizeText(image:UIImage) ->String {
var str = "0"
if let tessaract = G8Tesseract(language: "eng") {
tessaract.engineMode = .tesseractCubeCombined
tessaract.pageSegmentationMode = .auto
tessaract.image = image
tessaract.recognize()
str = tessaract.recognizedText ?? "0000"
}
return str
}
在使用OCR使扫描图像中的文本可搜索后,您可能需要使用能够生成PDF输出的库或SDK。
输出可能是一个多层PDF,其中一层将保存已识别的文本,上面的层将保存之前扫描的图像,使PDF可以搜索。
有多个库可以用于生成PDF,我可以建议(在为供应商工作时(使用LEADTOOLS工具包,它同时具有OCR和文档转换功能:https://www.leadtools.com/blog/document-imaging/pdf/convert-images-searchable-pdf-ocr/