Poppler/pdftohtml 和 ImageMagick/convert 的坐标系是不同的



我使用 Poppler utils 的 pdftohtml 将 PDF 转换为 XML。这将为 PDF 中的文本提供坐标。我还使用ImageMagick的转换工具将PDF转换为图像。当我在图像中搜索相同的坐标时,我找不到XML指向的文本:

  • PDF 的 XML 格式
  • PDF的图像格式

第一个链接在顶部显示标记为"BILL TO"的文本 = 182。第二个链接显示相同的文本"BILL TO",但坐标不同。

我的问题是:如何从XML和图像格式中找到坐标之间的关系?

任何帮助将不胜感激。

将 pdf2html 与选项 -xml 一起使用将生成一个 xml 文件,其中包含 PDF 中每个页面的元素。该元素具有宽度和高度属性。元素内的所有元素都具有相对于这些属性的左侧、顶部、宽度和高度。

A4 为 297 毫米或 11.693 英寸。在 72 DPI 下(见这里(,这是 842 个点,这是 pdfinfo 将报告的。不幸的是,pdftohtml的默认缩放比例为1.5。因此,对于 A4 页面,高度变为 1263。因此,要么您需要先乘以 2/3,要么使用 -zoom 1 选项。

ImageMagick convert会将PDF转换为具有这些相同坐标的图像。

相关内容

  • 没有找到相关文章

最新更新