我有这个网站需要刮。
https://www.dawn.com
我的目标是用关键字";巴基斯坦";
到目前为止,我只能在有URL的情况下抓取内容。例如:
from newspaper import Article
import nltk
nltk.download('punkt')
url = 'https://www.dawn.com/news/1582311/who-chief-lauds-pakistan-for-suppressing-covid-19-while-keeping-economy-afloat'
article = Article(url)
article.download()
article.parse()
article.nlp()
article.summary
从这段代码中,我写道我要复制和粘贴所有的URL,这太多了,无法手动完成。你知道怎么做吗?
最好是goto>https://www.dawn.com/pakistan&download(.html(然后抓取所有新闻内容,稍后使用关键字进行分叉。