我必须将PDF转换为文本,目前我正在使用pdftotext.exe
。这有时会弄乱生成的文本,所以我不能使用它。
我可以从另一个程序调用另一个免费工具吗?我更喜欢命令行工具。
PDF可能很难转换为文本,具体取决于其构造方式,但您可能会从iTextSharp或GhostScript或商业组件获得良好的结果,例如:从www.tallcomponents.com(非附属)
PDF文件通常不包含任何结构,因此软件需要猜测。我在http://www.jpedal.org/PDFblog/2009/04/pdf-text/
您也可以尝试PdfBox。
我发现ApachePDFBox比pdftotext好得多。它提取文本的方式更接近文档的原始格式。它可以从命令行运行。