小贝子编程

如何在检查页面上没有详细信息的情况下抓取网站

本文关键字：详细信息情况下网站抓取 selenium web-scraping beautifulsoup
更新时间 : 2023-09-19
英文 : How to scrape a website where details are not on the inspect page?

我有这个网站需要刮。

https://www.dawn.com

我的目标是用关键字"；巴基斯坦"；

到目前为止，我只能在有URL的情况下抓取内容。例如：

from newspaper import Article
import nltk
nltk.download('punkt')
url = 'https://www.dawn.com/news/1582311/who-chief-lauds-pakistan-for-suppressing-covid-19-while-keeping-economy-afloat'
article = Article(url)
article.download()
article.parse()
article.nlp()
article.summary

从这段代码中，我写道我要复制和粘贴所有的URL，这太多了，无法手动完成。你知道怎么做吗？

最好是goto>https://www.dawn.com/pakistan&download(.html(然后抓取所有新闻内容，稍后使用关键字进行分叉。

最新更新

我如何轻松地重新安装所有卸载的VS Code扩展，他们的文件仍然徘徊在我的~/.vscode /扩展文件夹吗?<
使用MS Graph API在应用注册中添加更多应用角色
PAC文件未正确筛选网站
返回一个字典，每个字符都有多个实例
AWS S3 -仅Zip文件对象，而不是路径
公共api如何处理CORS起源和jwt ?
如何摆脱实际上"duplicates"几乎等同的调用行，实际上只切换了部分列数据？
如何在换行时中断文本?
使用流JAVA 8将map转换为特定的dto对象
React Typescript：重构代码后无法过滤数组
pyalgotrade退出订单事件(onExitOk)的问题
如何从Lucene文档中打印所有术语?
使用jQuery通过span类获取检查元素
如果数据在列表中，如何过滤请求中的数据?
是否可以使用javascript或python访问whatsapp消息数据库历史记录?
为什么在版本 5 中找不到松树脚本的"ta.sqrt"？
检查String是否包含List中的任何项
Firebase Checkout Timer
Pythonnet中的c#扩展和Linq
你好，这是大学学习编程的第一天
为什么单元测试一个图像字段使用SimpleUploadedFile创建多个图像?
从文件中删除空白而不是从目录中删除空白会抛出错误
如何调用异步函数之前的组件呈现在reactjs?
scikit-learn版本不匹配__version__ '和' pip show scikit-learn '.<
雪花云数据平台哈希MD5或SHA256
Traefik filter portainer 作为 docker 群中的"disabled container"
Pandas数据框架，如何根据其他行的值替换部分行
如何安装Tensorflow和CUDA驱动程序?
如何创建带有域名和可导出过程列表的COBOL模块
Pixi js对一个元素进行两次旋转(如何添加类似包装器的东西)

如何在检查页面上没有详细信息的情况下抓取网站

相关内容

最新更新

热门标签：