小贝子编程

删除 python 中的 html 标签，而无需 HTML 格式化程序

我正在尝试从Python中的文本中删除HTML标签。问题出在存在的标签的格式上。前任：

[click internet options div on the right]
div - is the HTML tag

预期：

[click internet options on the right]

它没有像<>等格式。目前，我手动创建了一个HTML标签列表并使用"not in"将其删除。有没有更好的方法来清洁它。附言我不是在要求这样的代码，关于该方法的任何建议都会很棒。

您可以使用正则表达式，但需要要删除的 HTML 标记的列表。看看 re.sub 文档，它将帮助您编写正则表达式，如下所示：

re.sub(r"(div|section|aside)", "", toCheck)

第一个参数是模式，第二个参数是替换(在本例中没有(，然后是第三个参数，要检查的字符串。

相关内容