需要实现一个网络爬虫来编译来自 https://diatoms.org/species 的图像数据库



对于一个研究项目,我正在尝试实现一个脚本,该脚本将通过该站点并保存每个物种的图像集,并将文件保存为"genus_species_index.jpeg"。我也一直在看美丽的汤教程。主要问题是,通过脚本访问每个物种页面已被证明是相当困难的。

我建议看看scrapy来解决你的问题。美丽的汤是一个解析器(它做得很好(,但不能处理爬行。通常,在执行此类任务时,您将首先抓取站点,然后对其进行解析以提取数据,并且像Scrapy这样的蜘蛛是为第一个目的而发明的。(这是一些上下文的链接:https://www.scrapehero.com/a-beginners-guide-to-web-scraping-part-1-the-basics/(

相关内容

最新更新