从扫描的 pdf 中读取数据



>我有被扫描的pdf,不能转换为文本,甚至不能在文本编辑器中复制和粘贴为文本。

有没有办法以编程方式或手动将此类扫描的PDF文件转换为TEXT格式?

谢谢

由于文档是扫描的,因此您可能只有一个图像可以使用。您可能对光学字符识别(或OCR)有一些运气。此方法允许您从图像中提取文本数据。

Tesseract是一个流行的引擎,我已经在我的项目中使用它取得了很大的成功。您可以考虑检查一下。

如果您愿意手动转换文本并且不是 100,000 行,您可以随时自己或与队友一起键入所有数据,如果您可以找到繁琐任务的助手。您可以使用出色的 OCR 软件工具来完成这项工作。他们真的走了很长一段路。

如果你想以编程方式做到这一点,请查看Dan Nguyen的本指南,他以前在ProPublica工作。

http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data

他通过医生办公室扫描文件的PDF介绍了他们是如何做到这一点的。他使用Ruby on Rails,并有代码示例,你可以看到他是如何提取数据的:http://www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide

我相信ProPublica的一些代码可以在github上找到,所以你可能想在那里分叉他们的代码。

相关内容

  • 没有找到相关文章

最新更新