将文件扫描为可搜索的 PDF - 工作流程是什么?



我最近买了一台爱普生扫描仪,这样我就可以开始对我多年来积累的堆积如山的文件进行数字化了。我已经学会了如何把文件扫描成PDF格式。然而,我想确保我的PDF文件有可搜索的文本——我想技术术语是OCR,但我完全困惑了。

我可以用我的扫描仪把文件扫描成PDF格式。但是,如果我理解正确的话,我不能使它们成为OCR可搜索的,除非我使Adobe Acrobat和/或ABBYY Fine Reader成为工作流程的一部分。(顺便说一下,我用的是运行Mavericks的Mac电脑。)

我想我需要问的第一件事是:我需要什么软件来创建一个可OCR搜索的PDF ?就像我说的,我已经安装了爱普生扫描仪软件,但看起来我还需要Acrobat和/或ABBYY Fine Reader。

我想我应该问的第二个问题是我怎么知道PDF是否有可搜索的文本?我可以简单地用Dreamweaver或Apple的Spotlight等标准程序在PDF页面上搜索单词或短语吗?谢谢。

扫描仪生成图像并将其保存为图像格式或PDF格式。然后在OCR软件(如ABBYY Fine Reader)中打开结果。您也可以在Acrobat中打开它,因为Acrobat本身具有内置的OCR组件。如果使用的是Acrobat,则文档是可搜索的,除非Acrobat无法定位任何可读字符。其他OCR软件可以保存PDF或其他文件格式。

另一个答案中提到了另一个产品;我不知道,但也许值得一看。

第二个问题:

a)有一个Acrobat JavaScript Doc对象方法getPageNumWords();如果此方法返回一个大于0的数字,则作为参数传递的页面具有可搜索的文本。您可以在Acrobat JavaScript文档中找到有关此方法的更多信息,该文档是Acrobat SDK的一部分,可从Adobe网站下载。

b)有一个飞行前检查,它发现页面/文档是否有Text对象。如果是,它有可搜索的文本。不过,你需要用到acrobatpro。

您可以扫描到多页TIFF图像,并让Tesseract 3.03为您创建可搜索的PDF

大多数解决方案是使用扫描仪生成图像文件(如不可搜索的PDF),然后将您的身体从扫描仪移到计算机上,登录,运行一些笨重的,价格昂贵的软件,称为ABBSGDS或其他东西,点击大量菜单按钮,响应大量对话框,在观看OCR进度条时拨弄拇指,瞧,一个可搜索的PDF。

或者,您可以获得佳能扫描仪(例如DR-M160)并使用其免费的CaptureOnTouch软件。在这种情况下,您将文档放入扫描仪,在扫描仪上选择一个数字,然后按"扫描"键。几秒钟后(即使在速度较慢的计算机上),一个完全OCRd可搜索的PDF将出现在您选定的编号的目录中。你甚至不需要碰你的电脑(当然,它必须是开着的)

在我看来,对于每天要扫描几十个多页文件的繁忙办公环境来说,其他任何东西都毫无价值。例如,我站在我的扫描仪旁,快速连续地输入一个又一个文件。我从来不用电脑,我所有的文档都是可搜索的pdf文件,只要我把它们放进去,它们就能尽快被搜索到。

如果有人知道那种工作流程的软件解决方案只适用于一般扫描仪,请让我知道。我刚刚犯了一个错误,买了一台利盟多功能电脑,因为它附带了abbyy之类的软件,所以它实际上是一个功能。

最新更新