我正在尝试解析一个docx文件夹,并根据某个单词是否加粗来获取特定元素。 如果这是文档中的文本:
傅:你好
喝倒彩: 呸
��•等等
•等等
周:你好
我想逐行扫描,并获取粗体单词之后的所有文本,直到下一个粗体单词。
截至目前,我正在使用基于换行符解析的 XML 解析器。 我在 Zipfile 或单个行中找不到任何可以给我这样的元数据的内容。
可以这样做吗?
我会使用支持读取docx文件而不是解析XML文档的更高级别的库。
一个查找任务的库是python-docx。
如果您使用的是Jython,Apache POI HWPF是另一种选择。