将文件扫描为可搜索的 PDF - 工作流程是什么？ - Scanning file as searchable PDF

我最近买了一台爱普生扫描仪，这样我就可以开始对我多年来积累的堆积如山的文件进行数字化了。我已经学会了如何把文件扫描成PDF格式。然而，我想确保我的PDF文件有可搜索的文本——我想技术术语是OCR，但我完全困惑了。

我可以用我的扫描仪把文件扫描成PDF格式。但是，如果我理解正确的话，我不能使它们成为OCR可搜索的，除非我使Adobe Acrobat和/或ABBYY Fine Reader成为工作流程的一部分。(顺便说一下，我用的是运行Mavericks的Mac电脑。)

我想我需要问的第一件事是:我需要什么软件来创建一个可OCR搜索的PDF ?就像我说的，我已经安装了爱普生扫描仪软件，但看起来我还需要Acrobat和/或ABBYY Fine Reader。

我想我应该问的第二个问题是我怎么知道PDF是否有可搜索的文本?我可以简单地用Dreamweaver或Apple的Spotlight等标准程序在PDF页面上搜索单词或短语吗?谢谢。

扫描仪生成图像并将其保存为图像格式或PDF格式。然后在OCR软件(如ABBYY Fine Reader)中打开结果。您也可以在Acrobat中打开它，因为Acrobat本身具有内置的OCR组件。如果使用的是Acrobat，则文档是可搜索的，除非Acrobat无法定位任何可读字符。其他OCR软件可以保存PDF或其他文件格式。

另一个答案中提到了另一个产品;我不知道，但也许值得一看。

第二个问题:

a)有一个Acrobat JavaScript Doc对象方法getPageNumWords();如果此方法返回一个大于0的数字，则作为参数传递的页面具有可搜索的文本。您可以在Acrobat JavaScript文档中找到有关此方法的更多信息，该文档是Acrobat SDK的一部分，可从Adobe网站下载。

b)有一个飞行前检查，它发现页面/文档是否有Text对象。如果是，它有可搜索的文本。不过，你需要用到acrobatpro。

您可以扫描到多页TIFF图像，并让Tesseract 3.03为您创建可搜索的PDF

大多数解决方案是使用扫描仪生成图像文件(如不可搜索的PDF)，然后将您的身体从扫描仪移到计算机上，登录，运行一些笨重的，价格昂贵的软件，称为ABBSGDS或其他东西，点击大量菜单按钮，响应大量对话框，在观看OCR进度条时拨弄拇指，瞧，一个可搜索的PDF。

或者，您可以获得佳能扫描仪(例如DR-M160)并使用其免费的CaptureOnTouch软件。在这种情况下，您将文档放入扫描仪，在扫描仪上选择一个数字，然后按"扫描"键。几秒钟后(即使在速度较慢的计算机上)，一个完全OCRd可搜索的PDF将出现在您选定的编号的目录中。你甚至不需要碰你的电脑(当然，它必须是开着的)

在我看来，对于每天要扫描几十个多页文件的繁忙办公环境来说，其他任何东西都毫无价值。例如，我站在我的扫描仪旁，快速连续地输入一个又一个文件。我从来不用电脑，我所有的文档都是可搜索的pdf文件，只要我把它们放进去，它们就能尽快被搜索到。

如果有人知道那种工作流程的软件解决方案只适用于一般扫描仪，请让我知道。我刚刚犯了一个错误，买了一台利盟多功能电脑，因为它附带了abbyy之类的软件，所以它实际上是一个功能。

将文件扫描为可搜索的 PDF - 工作流程是什么？

相关内容

最新更新

热门标签：