识别pdf类型



Apache Tika中是否有检查pdf类型的选项:原生pdf(纯(或扫描pdf?

如果没有,也许我可以在Tika 在引擎盖下使用的tesseract中检查一下

到目前为止,我还没有找到合适的解决方案来确定是pdf扫描的还是原生的,但我找到了一个适用于我的的解决方案

我尝试在没有OCR和内部图像的情况下提取文本

pdfParserConfig.setExtractInlineImages(false);
pdfParserConfig.setOcrStrategy(NO_OCR);`

它的工作速度很快,对原生pdf也很好。因此,当提取的文本不为空时,我将源文档视为原生文档。在其他情况下(空响应(是扫描的pdf,然后我使用OCR策略检索文本

相关内容

最新更新