我已经使用BS4更改XML中某些元素的某些数字字符串,但是当我将XML保存为XML时,我不希望HTML或身体标签在XML中文件。
<annotation>
... more stuff here
</annotation>
变成
<html>
<body>
<annotation>
... more stuff here
</annotation>
</body>
</html>
通过
加载后 soup = BeautifulSoup(file_obj.read(), 'lxml')
我想在保存之前将我的XML装扮成我的XML,但是现在,转换汤很容易 ->字符串然后扔掉我不想要的元素。
链接到我正在使用的一个完整XML文件:https://gist.github.com/jtara1/4e5831604441976E198ABA2C7651AAF70
使用bs4
,您可以将解析器引擎更改为 html.parser
:
soup = BeautifulSoup(file_obj.read(), 'html.parser')