将PDF转换为XML结构



我想知道一种方法,如何通过用户将元素映射到特定的XML结构来转换PDF文件。我看了很多关于转换的视频或频道,但所有的频道或视频都是关于商业程序的,并且有特定的XML结构,我无法更改。我需要获得自己的XML结构。

有什么办法,如何做到这一点吗?我会使用哪种编程语言?

求你了,你能帮我吗?

首先,看看pdftohtml

它可以选择将其转换为xml。它会给你这样的东西:

<?xml version="1.0" encoding="UTF-8"?>
<pdf2xml producer="poppler" version="0.87.0">
<page number="1" position="absolute" top="0" left="0" height="1263" width="892">
<fontspec id="0" size="18" family="TimesNewRomanPSMT" color="#000000"/>
<fontspec id="4" size="14" family="ArialMT" color="#000000"/>
<image top="53" left="129" width="251" height="65" src="document-1_1.jpg"/>
<image top="1205" left="812" width="34" height="34" src="document-1_2.jpg"/>
<text top="58" left="135" width="5" height="16" font="0"> </text>
<text top="602" left="144" width="261" height="17" font="4">Ontbreken van het metadataveld ‘taal’; </text>
<text top="622" left="135" width="362" height="14" font="4">- Foutief gebruik van tabellen voor lay-out doeleinden; </text>
<text top="639" left="135" width="243" height="14" font="4">- Afbeeldingen zonder omschrijving; </text>
<text top="656" left="135" width="9" height="14" font="4">- </text>
</page>
</pdf2xml>

但就在这时,一切都开始了。如何将其转化为有用的东西。因为pdf只是由文本片段组成。

从中(重新(创建一个结构是一个挑战。

最新更新