pdf到文本的转换不准确

我已经尝试了Linux上几乎所有可用的pdf到文本转换器，但文本的某些部分已损坏/不准确。就像一些字符被其他字符替换一样，pdf中的文本中也缺少一些单词。对于某些单词，转换后的文本包含分号等。

我也试过aspell，这样我就可以纠正单词，但aspell对一些单词保持沉默。

注：pdf包含瑞典语文本。

那么，有什么解决方案可以修复pdf到文本转换中的这种不准确之处吗？

否。我认为没有一个适用于所有pdf文件的有效解决方案，因为显示的视觉文本下面的实际文本可以以各种风格存储。

例如，当PDF由LaTeX生成时，它取决于几个配置选项，以及一些非ascii字符的嵌入方式。有时我得到的是:o而不是ö，有时是o:，有时字符是直接嵌入的。其中显示为ö的每个变体。

如果你用你最喜欢的pdf查看器复制粘贴文本，或者试图搜索损坏的单词，你可能会看到同样的效果。

为了解决这些问题，可以使用ocr软件——在识别这些工具方面存在所有缺点。

相关内容