使用IcePDF或PDFBox从PDF生成HTML页面



我想使用IcePDFPDFBox从PDF中提取内容。但是我现在不知道如何从提取的文本和图像中继续生成HTML网页。

可以使用PDFBox将pdf转换为html。试试这个链接。

通过在提取文本时添加-html作为参数,您将获得pdf的html。但它不会包含任何图像,图形和其他细节。它将只从pdf中提取html格式的文本。

如果您想创建pdf的确切外观和感觉,在PDFBox中没有单步方法。据我所知,没有一个库提供这种功能来创建pdf的精确html。但使用PDFBox,您可以提取图像,文本及其细节。使用这些细节,您必须创建一个逻辑来生成html。我们已经做了一个项目,将pdf转换为html的azzist.com。我们已经使用PDFBox完成了转换。在azzist我们正在转换简历到html格式。(还有一些字体问题)。

Scribd, google, dropbox, zoho等都以更好的方式完成了这种转换。你可以看看这些网站,看看他们是如何做到这一点的。(你不会明白其中的逻辑。

最新更新