Python 中的 Docx 内容和格式提取



我正在尝试解析一个docx文件夹,并根据某个单词是否加粗来获取特定元素。 如果这是文档中的文本:

傅:你好

喝倒彩:

��

•等等

•等等

周:你好

我想逐行扫描,并获取粗体单词之后的所有文本,直到下一个粗体单词。

截至目前,我正在使用基于换行符解析的 XML 解析器。 我在 Zipfile 或单个行中找不到任何可以给我这样的元数据的内容。

可以这样做吗?

我会使用支持读取docx文件而不是解析XML文档的更高级别的库。

一个查找任务的库是python-docx。

如果您使用的是Jython,Apache POI HWPF是另一种选择。

相关内容

  • 没有找到相关文章

最新更新