在nodejs应用程序中转换为HTML



我正在尝试提取PDF的内容以获得等效的HTML。

我用Nodejs来做这件事(它是一个电报机器人)。

我用谷歌搜索了一段时间,我只能找到HTML到PDF的东西,比如使用poppetteer和类似的东西。你知道有什么东西能起到完全相反的作用吗?

提前通知。

看一下pdfjs-dist。

我没有使用过那个库,但它似乎是一个带你更接近你的目标。而且,你可能已经知道,PDF文件可以包含任何内容:扫描文本、照片、绘图等等。

可能不可能有一个库能够提取人类从PDF中提取的所有信息。

最新更新