将PDF转换为不带pdftotext的文本



我必须将PDF转换为文本,目前我正在使用pdftotext.exe。这有时会弄乱生成的文本,所以我不能使用它。

我可以从另一个程序调用另一个免费工具吗?我更喜欢命令行工具。

PDF可能很难转换为文本,具体取决于其构造方式,但您可能会从iTextSharp或GhostScript或商业组件获得良好的结果,例如:从www.tallcomponents.com(非附属)

PDF文件通常不包含任何结构,因此软件需要猜测。我在http://www.jpedal.org/PDFblog/2009/04/pdf-text/

您也可以尝试PdfBox。

我发现ApachePDFBox比pdftotext好得多。它提取文本的方式更接近文档的原始格式。它可以从命令行运行。

相关内容

  • 没有找到相关文章

最新更新