在不丢失文本格式的情况下提取文本

Hei，

我目前正在研究文本提取器软件，如pdftotext，antiword，catdoc等......我想了解为什么没有软件可以保持文本完美。在不丢失格式的情况下解析文本是否如此困难？

谢谢。

在不丢失格式的情况下解析文本是否如此困难？

是的！

我想了解为什么没有软件可以保持文本完美

如果你真的开始考虑解决这个问题，你很快就会明白为什么这很难做到。通常发生的事情是人们看着他们的计算机屏幕，只看到上面画了一堆文本，不明白屏幕上的内容和存储在文件中的内容之间的区别。

正如对该问题的一些评论所表明的那样，每种文件格式都有其独特的挑战，我比其他文件格式更熟悉PDF，所以让我们简化一下。

PDF被构建为一种页面描述语言，请参阅维基百科，计算机可以在屏幕上解释和绘制的东西，无论在哪里查看，看起来都像作者的意图。

这意味着存储在PDF中的内容是计算机能够重现视觉表示的最少信息量，仅此而已。许多 PDF 创建工具都支持尽可能多的内容，其他创建工具提供有关 PDF 内容的更多信息，以便以后无需对 PDF 进行 OCR 即可提取内容。

有多种方法可以将文本

存储在 PDF、实际文本、包含文本的图像或路径中。可能还有更多，在我列出的 3 个中，只有 1 个是我们认为是真实文本，除了从最终用户的角度来看，它们都是文本，因为这就是他们看到的，他们看不到该文本是如何被绘制到屏幕上的，这甚至没有开始谈论不同的语言，编码和字体。

相关内容