用panda从复杂xml文档中提取文本元素



我对python和panda很陌生,我正试图从xml中提取一个文本元素,其结构如下:

在此处输入图像描述

我试图做的是提取

中块class="下的文本;全文;并将其保存在单独的文件中。我试过一些方法,但到目前为止都没有效果。有人能帮我吗?复杂的结构让我抓狂。

file_output = open('my_new_file.txt', 'w')
flag = False
with open('my_xml_file.xml') as f:
for line in f:
if flag and '</block>' in line:
flag = False
if flag:
file_output.write(line.rstrip('</p>').lstrip('<p>') + 'n')
if 'class="full_text"' in line:
flag = True
file_output.close()

最新更新