如何在Java代码中使用PDF2DOM库从PDF获取HTML文档



我正在尝试从PDF提取表格数据,并且为了开始,我的第一步是将PDF转换为HTML DOC。如何使用 PDF2DOM库

将PDF转换为HTML

您可以使用此

转换它
private void generateHTMLFromPDF(String filename) {
    PDDocument pdf = PDDocument.load(new File(filename));
    Writer output = new PrintWriter("src/output/pdf.html", "utf-8");
    new PDFDomTree().writeText(pdf, output);
    output.close();
}

参考 - 链接

最新更新