删除 python 中的 html 标签,而无需 HTML 格式化程序



我正在尝试从Python中的文本中删除HTML标签。问题出在存在的标签的格式上。前任:

[click internet options div on the right]
div - is the HTML tag

预期:

[click internet options on the right]

它没有像<>等格式。 目前,我手动创建了一个HTML标签列表并使用"not in"将其删除。有没有更好的方法来清洁它。附言我不是在要求这样的代码,关于该方法的任何建议都会很棒。

您可以使用正则表达式,但需要要删除的 HTML 标记的列表。看看 re.sub 文档,它将帮助您编写正则表达式,如下所示:

re.sub(r"(div|section|aside)", "", toCheck)

第一个参数是模式,第二个参数是替换(在本例中没有(,然后是第三个参数,要检查的字符串。

最新更新