如何为所有电子商务网站制作网络爬虫



我是新手。我想为我的个人实验制作我的网络爬虫,它将抓取整个互联网并将电子商务网站的URL存储到我的数据库中。我搜索了整个谷歌,发现这个和更多几乎相同。

但也有start_urls = ['http://brickset.com/sets/year-2016']我想修改并想添加整个 Internet.Is 这可能?如果是,请指导我正确的方法。

提前谢谢。

因此,让我们以不同的方式处理这个问题。实际上,构建一个可以实际抓取所有电子商务网站并为您带来结果的爬虫是不可能的。

这给我们留下了最好的选择Search Engines.您可以做的是用您的product query抓取任何搜索引擎,并收集列出待售产品的链接。

您将面临的第二个挑战是如何区分e-commerce站点和other站点。像DiffBot这样的工具确实会在这方面有所帮助。

这需要实时完成,因为显然您不会计划在互联网上的索引网站上制作所有产品的巨大数据库。

最新更新