通过XML解析从docx文件中提取第一页内容



我需要从docx文件中提取第一页内容,并将其保存为一个单独的文档。我需要从第一页的一切(图像,表格,文本),以保存为新的docx文件。

我试过的是:我查看了解压后的docx文件的xml。由于word文档是可回流的,我无法在每页结束后找到分页符。所以我无法通过document.xml

找到每页的结尾

是否有任何方法可以单独使用java XML DOM解析器获得文档第一页的XML内容?

不要再写新的解析器了,已经有很多现成的工具可以做这个了(例如,如果你的输入从XML变成二进制的Word文件怎么办?)

使用Apache POI为例,如@JFB建议的

最新更新