Hei,
我目前正在研究文本提取器软件,如pdftotext
,antiword
,catdoc
等......我想了解为什么没有软件可以保持文本完美。在不丢失格式的情况下解析文本是否如此困难?
谢谢。
在不丢失格式的情况下解析文本是否如此困难?
是的!
我想了解为什么没有软件可以保持文本完美
如果你真的开始考虑解决这个问题,你很快就会明白为什么这很难做到。 通常发生的事情是人们看着他们的计算机屏幕,只看到上面画了一堆文本,不明白屏幕上的内容和存储在文件中的内容之间的区别。
正如对该问题的一些评论所表明的那样,每种文件格式都有其独特的挑战,我比其他文件格式更熟悉PDF,所以让我们简化一下。
PDF被构建为一种页面描述语言,请参阅维基百科,计算机可以在屏幕上解释和绘制的东西,无论在哪里查看,看起来都像作者的意图。
这意味着存储在PDF中的内容是计算机能够重现视觉表示的最少信息量,仅此而已。许多 PDF 创建工具都支持尽可能多的内容,其他创建工具提供有关 PDF 内容的更多信息,以便以后无需对 PDF 进行 OCR 即可提取内容。
有多种方法可以将文本存储在 PDF、实际文本、包含文本的图像或路径中。可能还有更多,在我列出的 3 个中,只有 1 个是我们认为是真实文本,除了从最终用户的角度来看,它们都是文本,因为这就是他们看到的,他们看不到该文本是如何被绘制到屏幕上的,这甚至没有开始谈论不同的语言, 编码和字体。