我编写了一个简单的java程序来获取PDF文档的页码。这对我的大多数文档都有效,但对这个不起作用:
http://web.itu.edu.tr/pazarci/退货/TEK_Digital % 20视频% 20 measurements_25w_14700_3.pdf
代码片段如下:
document = PDDocument.load(docPath);
System.out.println( docPath + ": " + document.getNumberOfPages() + " pages");
,其中docPath指向该文档的本地路径。
程序然后停在这里。它不退出,也不打印任何错误消息。它只在PDDocument.load()处停止,而不继续。
我也遇到了同样的问题,所以我使用您提到的PDF向PDFBox工作人员打开了一个问题。它位于https://issues.apache.org/jira/browse/PDFBOX-1726.
他们建议我用PDDocument.loadNoSeq()
代替PDDocument.load()
。这对我很有效!
试试这个,让我们知道!