小贝子编程

Python 中的 Docx 内容和格式提取

本文关键字：格式提取中的 Docx Python python file-io xml-parsing fileparsing
更新时间 : 2023-08-30
英文 : Docx content and formatting extraction in python

我正在尝试解析一个docx文件夹，并根据某个单词是否加粗来获取特定元素。如果这是文档中的文本：

傅：你好

喝倒彩： 呸

��

•等等

周：你好

我想逐行扫描，并获取粗体单词之后的所有文本，直到下一个粗体单词。

截至目前，我正在使用基于换行符解析的 XML 解析器。我在 Zipfile 或单个行中找不到任何可以给我这样的元数据的内容。

可以这样做吗？

我会使用支持读取docx文件而不是解析XML文档的更高级别的库。

一个查找任务的库是python-docx。

如果您使用的是Jython，Apache POI HWPF是另一种选择。

最新更新

写JSON例如persondata的正确方法是什么?
Django Password Expiry
如何使用python为XML文件中的现有文本添加XML元素
是可能的，如果是这样，是否有一个性能优势，结合最小的API和经典控制器?
如何从本地存储中删除一个多维数组的按钮点击?
反应.Ok总是正确的，即使是故意使用错误的国家
Jenkins zip调试和发布apk，并希望做archiveArtifacts
如何在Oracle XE 21c上下载HR模式?
r语言 - 是否有可能强制一个特定的变量进入bestglm?
从html [web app using flask]中的python文件获取信息
磁盘[admin]未配置，请在' config/ filessystems .php '中添加磁盘配置
如何从子组件中设置父组件中的变量
我如何排序我的捆绑器依赖之间是一个开发依赖或不是?
Weka RF 不会给出任何混淆矩阵或预期结果
我想简化这个javascript代码.有许多子元素
如何将列表转换为元组，我尝试了基于谷歌搜索，它从未工作过
键和值的哈希集
目标链接并不总是出现在iframe中
0x800700b7向IIS部署网站错误
条形码扫描器何时创建com端口，何时不创建?
在SQL中创建一个没有join的视图
在React中使用jQuery仅用于更改样式(颜色，边框等)是可以的吗?
UseState没有更新组件属性
c语言 - 我有一个将字符串作为参数的函数.v手动输入字符串有效，但使用 scanf 不起作用
无法解析google工作表中的范围
如何在顺风中使用柔韧
无法将数据插入数据库
r语言 - 闪亮的应用程序输出显示在控制台，而不是在主面板
ModuleNotFoundError for 'sklearn' as subdependency of numpy
语句中未声明的标识符导致的负索引'for'

Python 中的 Docx 内容和格式提取

相关内容

最新更新

热门标签：