我已经将一些PDF文件加载到MARKLOGIC中,然后通过CPF默认的PDF转换将其加载到XML。一些PDF是可填充的,但是填写的内容都没有包含在转换中。有办法转换吗?
这些pdf表单是否由用户填写?如果是这样,某些转换器不会携带PDF表单数据。PDFtables可能会工作 - API允许您将PDF转换为XML,包括任何表单数据。
作为Python中的一个例子(可以使用任何语言):
import pdftables_api
c = pdftables_api.Client('my-api-key')
c.xml('input.pdf', 'output.xml')