剥离网页的不相关部分



是否有一种API或系统的方法可以在通过Python抓取网页时剥离网页的不相关部分?例如,以这个页面为例 - 唯一重要的部分是问题和答案,而不是侧边栏列,标题等。人们可以猜到这样的事情,但是有什么聪明的方法可以做到这一点吗?

有来自

可读性书签的方法,至少有两个 Python 实现可用:

  • 德克鲁夫特
  • 蟒蛇可读性

一般来说,没有。 在特定情况下,如果您对正在抓取的网站的结构有所了解,则可以使用像Beautiful Soup这样的工具来操纵DOM。

一种方法是比较共享同一模板的多个网页的结构。在这种情况下,您将比较多个 SO 问题。然后,您可以确定哪些内容是静态的(无用的)或动态的(有用的)。

此字段称为包装器归纳。不幸的是,这比听起来更难!

这个 git hub 项目解决了你的问题,但它是用 Java 的。可能值得一看:鹅

最新更新