剥离网页的不相关部分

是否有一种API或系统的方法可以在通过Python抓取网页时剥离网页的不相关部分？例如，以这个页面为例 - 唯一重要的部分是问题和答案，而不是侧边栏列，标题等。人们可以猜到这样的事情，但是有什么聪明的方法可以做到这一点吗？

有来自

可读性书签的方法，至少有两个 Python 实现可用：

一般来说，没有。在特定情况下，如果您对正在抓取的网站的结构有所了解，则可以使用像Beautiful Soup这样的工具来操纵DOM。

一种方法是比较共享同一模板的多个网页的结构。在这种情况下，您将比较多个 SO 问题。然后，您可以确定哪些内容是静态的（无用的）或动态的（有用的）。

此字段称为包装器归纳。不幸的是，这比听起来更难！

这个 git hub 项目解决了你的问题，但它是用 Java 的。可能值得一看：鹅

相关内容