使用IcePDF或PDFBox从PDF生成HTML页面

我想使用IcePDF或PDFBox从PDF中提取内容。但是我现在不知道如何从提取的文本和图像中继续生成HTML网页。

可以使用PDFBox将pdf转换为html。试试这个链接。

通过在提取文本时添加-html作为参数，您将获得pdf的html。但它不会包含任何图像，图形和其他细节。它将只从pdf中提取html格式的文本。

如果您想创建pdf的确切外观和感觉，在PDFBox中没有单步方法。据我所知，没有一个库提供这种功能来创建pdf的精确html。但使用PDFBox，您可以提取图像，文本及其细节。使用这些细节，您必须创建一个逻辑来生成html。我们已经做了一个项目，将pdf转换为html的azzist.com。我们已经使用PDFBox完成了转换。在azzist我们正在转换简历到html格式。(还有一些字体问题)。

Scribd, google, dropbox, zoho等都以更好的方式完成了这种转换。你可以看看这些网站，看看他们是如何做到这一点的。(你不会明白其中的逻辑。

相关内容

最新更新

热门标签：