我使用 Poppler utils 的 pdftohtml 将 PDF 转换为 XML。这将为 PDF 中的文本提供坐标。我还使用ImageMagick的转换工具将PDF转换为图像。当我在图像中搜索相同的坐标时,我找不到XML指向的文本:
- PDF 的 XML 格式
- PDF的图像格式
第一个链接在顶部显示标记为"BILL TO"的文本 = 182。第二个链接显示相同的文本"BILL TO",但坐标不同。
我的问题是:如何从XML和图像格式中找到坐标之间的关系?
任何帮助将不胜感激。
将 pdf2html 与选项 -xml 一起使用将生成一个 xml 文件,其中包含 PDF 中每个页面的元素。该元素具有宽度和高度属性。元素内的所有元素都具有相对于这些属性的左侧、顶部、宽度和高度。
A4 为 297 毫米或 11.693 英寸。在 72 DPI 下(见这里(,这是 842 个点,这是 pdfinfo 将报告的。不幸的是,pdftohtml的默认缩放比例为1.5。因此,对于 A4 页面,高度变为 1263。因此,要么您需要先乘以 2/3,要么使用 -zoom 1 选项。
ImageMagick convert会将PDF转换为具有这些相同坐标的图像。