pdfquery 不返回 BBOX 中的值

我正在尝试使用 pdfquery 库返回所需 pdf 框中的文本。

import pdfquery
pdf = pdfquery.PDFQuery("C:/Users/tyler.cowan/Desktop/PDF Miner/test.pdf")
test =  pdf.extract([
('UWI/API', 'LTTextLineHorizontal:in_bbox("35.28,700.56,127.44,717.84")'),
])
print(test)

我首先从页面的左上角定义了 bbox 这返回

{'UWI/API': [<LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>, <LTTextLineHorizontal>]}

然后，我继续从页面左下角定义 bbox 并返回类似内容。然后，我继续定义一个包含整个页面 8.5" x 11" 的 bbox，并返回了更多的值而不是所有文本。我在这里做错了什么，我正在按照"快速入门"下的文档进行操作。我正在使用python 2.7

它在批量数据抓取下的页面下方说：

(

通常以('with_formatter'， 'text'(开头很有帮助，这样你得到的结果就是"Michaels"而不是[<'LTTextLineHorizontal>]。有关详细信息，请参阅下面的特殊关键字。

相关内容

最新更新

热门标签：