如何在检查页面上没有详细信息的情况下抓取网站



我有这个网站需要刮。

https://www.dawn.com

我的目标是用关键字";巴基斯坦";

到目前为止,我只能在有URL的情况下抓取内容。例如:

from newspaper import Article
import nltk
nltk.download('punkt')
url = 'https://www.dawn.com/news/1582311/who-chief-lauds-pakistan-for-suppressing-covid-19-while-keeping-economy-afloat'
article = Article(url)
article.download()
article.parse()
article.nlp()
article.summary

从这段代码中,我写道我要复制和粘贴所有的URL,这太多了,无法手动完成。你知道怎么做吗?

最好是goto>https://www.dawn.com/pakistan&download(.html(然后抓取所有新闻内容,稍后使用关键字进行分叉。

最新更新