pdf到文本的转换不准确



我已经尝试了Linux上几乎所有可用的pdf到文本转换器,但文本的某些部分已损坏/不准确。就像一些字符被其他字符替换一样,pdf中的文本中也缺少一些单词。对于某些单词,转换后的文本包含分号等。

我也试过aspell,这样我就可以纠正单词,但aspell对一些单词保持沉默。

注:pdf包含瑞典语文本。

那么,有什么解决方案可以修复pdf到文本转换中的这种不准确之处吗?

否。我认为没有一个适用于所有pdf文件的有效解决方案,因为显示的视觉文本下面的实际文本可以以各种风格存储。

例如,当PDF由LaTeX生成时,它取决于几个配置选项,以及一些非ascii字符的嵌入方式。有时我得到的是:o而不是ö,有时是o:,有时字符是直接嵌入的。其中显示ö的每个变体。

如果你用你最喜欢的pdf查看器复制粘贴文本,或者试图搜索损坏的单词,你可能会看到同样的效果。

为了解决这些问题,可以使用ocr软件——在识别这些工具方面存在所有缺点。

最新更新