用Python列出任意给定动态网页的所有链接



我找不到一种方法来创建一个通用的爬网程序,它可以接收网页并列出其中的所有链接,目的是检查整个域及其所有内部链接。

我已经尝试过用HtmlUnit(Java(和Selenium(Python(来做这件事,但内部链接的搜索总是必须用特定的标记或id来指示,我需要这样才能处理任何(或大多数(给定的页面,并且每个页面都使用不同的结构。

非常感谢您的帮助

BeautifulSoup有一个广泛的HTML过滤工具包。例如,可以筛选具有href属性集的任何链接对象。例如

示例取自文档

soup.select('a[href]')
# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
#  <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
#  <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

在上查看更多信息https://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-选择器

最新更新