我可以在PDF页面中提供pdftotext坐标吗?



我知道

pdftotext -f 42 -l 42 -layout mypdf.pdf

给了我从mypdf.pdf中提取的第 42 页的内容,格式为"正确"的布局。但是我有一个两列设计的页面,其中列之间的行不匹配。当然,pdftotext只是删除了一些内容。

是否可以给它一个框的坐标,它应该在其中提取文本/布局?

如果在pdftotext内做不到,Python解决方案也是可以接受的。

最新版本的pdftotext应该可以做你想做的事。

示例

pdftotext -x 100 -y 100 -W 20 -H 20 your-file.pdf -

这应该为您提供坐标 x = 100 和 y = 100 的 20x20 框中的文本。(y从上到下(。

笔记

  • 我使用了版本0.90.1

    pdftotext version 0.90.1
    Copyright 2005-2020 The Poppler Developers - http://poppler.freedesktop.org
    Copyright 1996-2011 Glyph & Cog, LLC
    
  • Mac 用户:使用brew install poppler安装

  • 文档

相关内容

  • 没有找到相关文章

最新更新