小贝子编程

通过XML解析从docx文件中提取第一页内容

本文关键字：提取第一页文件 docx XML 通过 java xml document domparser
更新时间 : 2023-08-25
英文 : Extract the first page content from docx file by XML parsing

我需要从docx文件中提取第一页内容，并将其保存为一个单独的文档。我需要从第一页的一切(图像，表格，文本)，以保存为新的docx文件。

我试过的是:我查看了解压后的docx文件的xml。由于word文档是可回流的，我无法在每页结束后找到分页符。所以我无法通过document.xml

找到每页的结尾

是否有任何方法可以单独使用java XML DOM解析器获得文档第一页的XML内容?

不要再写新的解析器了，已经有很多现成的工具可以做这个了(例如，如果你的输入从XML变成二进制的Word文件怎么办?)

使用Apache POI为例，如@JFB建议的

最新更新

在bash中查找右括号
密码加强脚本-如何大写第一个字母，并将整数列表追加到文件中的文本末尾，并重复列出它
我如何使用相同的布局为每个页面，但改变内容组件通过URL路由在Next.js?
r语言 - 如何导入和绑定多个带有多个选项卡的Excel(名称常见)
Jetpack Compose与Paging 3产生太多的网络请求
当我们设置git reset -soft时，历史记录会发生什么?
我们可以调用firebase作为服务器吗?
发送Post请求时出现启动错误，收到不支持的媒体类型415错误
JPA继承问题与ObjectDB -字段未发现类型错误
插件部分中的依赖树
简单的GUI应用程序
woocommerce在结帐页面上自动登录，只需使用billing_email
X509Certificate2.Verify()运行错误，但证书正在工作
BinanceAPIExceptionError: APIError(code=-2015): Invalid API-
Python Scrapy代码从网站提取第一封电子邮件
我试图使用Plotly在python中创建一个地图图，但我的数据没有被导入或不能正常工作
JPA储存库.save在Netty服务器channelInitializer处理程序不工作
通常在kafka模式注册表中注册动态protobuf模式
如何使用窗口提示符作为货币反应
如何获得光标位置悬停在GTK-rs绘图区域?
Angular 12的数据绑定问题
使用Scapy和无线网卡扫描网络-网络不通错误
Amplify GraphQL DataStore : auth rules: groupsField being ig
Svelte自定义元素更新不工作
我的prinln方法没有输出我想要的相同输出
azure function poppler utils
r语言 - 取对角矩阵的幂
multiplication Table in dart
如何捕获从装饰器抛出"FilesInterceptor"错误
错误:fatal:不是git存储库(或任何父目录):.git云源存储库

通过XML解析从docx文件中提取第一页内容

相关内容

最新更新

热门标签：