是否可以使用网络抓取来获取正确的单词,然后单击单词下方的链接



所以我不是在询问代码,我只是在询问网页抓取是否可以完成我将在下面描述的内容以及在哪里可以找到教程:

我有一个包含标题列表的网页。每个标题都包含一个直接指向其内容的链接。我在想是否有可能在标题中找到正确的关键字,然后单击标题的链接,最后对内容进行网络抓取?如果是,我在哪里可以找到有关它的任何教程?我不是网络方面的专业人士,所以我的描述很可能会引起混淆。幸运的是,如果有人理解我所描述的内容,请随时编辑问题正文,以便人们更容易理解。谢谢。(我正在考虑使用来自python的beautifulsoup4软件包(

实际上,除非链接是使用 javascript 生成的,否则您可能不必专门"点击"它们。

您通常做的是:

  • 获取第一页(例如使用请求(
  • 获取所有链接(例如使用美丽汤(
  • 对于每个链接:获取它的 href 属性(再次使用请求(

查看美丽的汤文档,你会有很多例子:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

你可以

用Selenium做到这一点。

https://selenium-python.readthedocs.io/locating-elements.html

您必须获取需要交互的可点击链接的路径,您可以在Selenium中执行此操作。

在此处查看文档。

相关内容