没有标记就不能清理网络爬虫吗?用正则表达式做不干净吗?


data = re.sub('<[^>]*>', '', string=html).lower()

我想抓取随机页面。但是,由于不可能只抓取所需的内容,因此我发布了一个问题。在刮擦 html 后使用正则表达式删除它是否有效?

html2text library或pextract lib 对质疑有效

相关内容

  • 没有找到相关文章

最新更新