如何使用pdfbox解析包含表格格式数据的pdf



有没有人可以帮助我如何使用文本或pdfbox提取表数据,我有1000页的pdf,我的工作是解析pdf并将数据存储到数据库

pdf不包含任何表结构元素,除非它包含额外的XML来定义表。否则就没有结构。我写了一篇关于如何找到答案的博客文章。

一些工具,如PdfBox,会努力猜测表格,但它可能是命中和错过

您可以使用以下代码以字符串格式提取数据:

PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

则可以使用java正则表达式逐行解析并将值加载到java POJO bean中。

最新更新