检查是否已从Word/Google Docs导出PDF文件



我正在用OCRing PDF做一些工作,我很好奇是否有一种方法可以检查PDF是否已经从Word(或Google Docs)导出。我可以检查PDF是否已经用Xpdf的PDF字体进行了OCR。我知道Word和Google Docs会自动对导出的PDF进行OCR,所以如果我发现PDF没有被OCR。我知道它还没有出口。但是如果它已经被OCR了,有没有办法检查PDF是否从Word/Google Docs导出,而不是简单的OCR与像Tesseract这样的程序?具体来说,我在JavaScript工作,但任何信息都是有用的。

对于任何查找此内容的人,我现在正在做的是使用pdfinfo(来自Xpdf)带-meta标志来检查PDF是否具有XMP元数据。从Word和Google Docs导出的pdf文件没有此元数据,但其他pdf文件有。

相关内容

最新更新