识别pdf类型

Apache Tika中是否有检查pdf类型的选项：原生pdf(纯(或扫描pdf？

如果没有，也许我可以在Tika 在引擎盖下使用的tesseract中检查一下

到目前为止，我还没有找到合适的解决方案来确定是pdf扫描的还是原生的，但我找到了一个适用于我的的解决方案

我尝试在没有OCR和内部图像的情况下提取文本

pdfParserConfig.setExtractInlineImages(false);
pdfParserConfig.setOcrStrategy(NO_OCR);`

它的工作速度很快，对原生pdf也很好。因此，当提取的文本不为空时，我将源文档视为原生文档。在其他情况下(空响应(是扫描的pdf，然后我使用OCR策略检索文本

相关内容