如何使用Python删除docx文档中的某些段落



我有一个很大的.docx文档。它有100多个段落。然而,有一些垃圾段落我需要删除。例如,那些需要删除的段落有一个关键字"无"。如何使用python删除那些有关键字"无"的段落。这是我到目前为止所拥有的,但它只能删除空白的一段。我如何修改它以实现我的目标?

import docx
f = docx.Document(r"test.docx")  
doc = docx.Document() 
for para in f.paragraphs:
if para.text.count("n") == len(para.text):  
continue
else:
if not para.text[0].isalpha(): 
continue
doc.add_paragraph(para.text) 
doc.save(r"test2.docx") 

您应该能够使用以下代码为简单的情况执行此操作:

def delete_paragraph(paragraph):
p = paragraph._element
p.getparent().remove(p)
p._p = p._element = None

任何后续对"已删除"段落对象的访问都会引发AttributeError,因此您应该小心不要让引用挂起,包括作为Document.paraggraphs.存储值的成员

它还不在库中的原因是,一般情况要复杂得多,特别是需要检测和处理段落中可能存在的各种链接项目;图片、超链接或图表等

但如果你确信这些都不存在,那么这几行应该可以完成任务。