防止 BeautifulSoup4 用 <html> 和 <body> 标记包装 XML



我已经使用BS4更改XML中某些元素的某些数字字符串,但是当我将XML保存为XML时,我不希望HTML或身体标签在XML中文件。

<annotation>
... more stuff here
</annotation>

变成

<html>
<body>
<annotation>
... more stuff here
</annotation>
</body>
</html>

通过

加载后

soup = BeautifulSoup(file_obj.read(), 'lxml')

我想在保存之前将我的XML装扮成我的XML,但是现在,转换汤很容易 ->字符串然后扔掉我不想要的元素。

链接到我正在使用的一个完整XML文件:https://gist.github.com/jtara1/4e5831604441976E198ABA2C7651AAF70

使用bs4,您可以将解析器引擎更改为 html.parser

 soup = BeautifulSoup(file_obj.read(), 'html.parser')

最新更新