我知道
pdftotext -f 42 -l 42 -layout mypdf.pdf
给了我从mypdf.pdf
中提取的第 42 页的内容,格式为"正确"的布局。但是我有一个两列设计的页面,其中列之间的行不匹配。当然,pdftotext
只是删除了一些内容。
是否可以给它一个框的坐标,它应该在其中提取文本/布局?
如果在pdftotext
内做不到,Python解决方案也是可以接受的。
最新版本的pdftotext
应该可以做你想做的事。
示例:
pdftotext -x 100 -y 100 -W 20 -H 20 your-file.pdf -
这应该为您提供坐标 x = 100 和 y = 100 的 20x20 框中的文本。(y
从上到下(。
笔记
我使用了版本
0.90.1
:pdftotext version 0.90.1 Copyright 2005-2020 The Poppler Developers - http://poppler.freedesktop.org Copyright 1996-2011 Glyph & Cog, LLC
Mac 用户:使用
brew install poppler
安装文档