使用谷歌Chrome扩展的电子商务网站的网络抓取



我正在尝试做一个电子商务网站的网页抓取,并寻找了所有主要的可能的解决方案。我发现最好的是谷歌Chrome浏览器的网页抓取扩展。我实际上想把网站上所有可用的数据都拉出来。

例如,我正试图抓取电子商务网站www.bigbasket.com的数据。现在,当我尝试创建一个站点地图时,我被困在这部分,我必须从页面中选择元素。同样的页面,比如类别A,当向下滚动时包含各种产品,一个类别页面进一步分成第1页,第2页和少数类别有第3页等等。

现在,如果我选择同一页面的多个元素,比如第1页,这完全没问题,但是当我试图从第2页或第3页选择元素时,刮刀提示不同类型的元素部分被禁用,并要求我通过选择复选框启用,之后我可以选择不同的元素。但是当我运行站点地图并开始抓取时,抓取器返回空值并且数据没有被提取出来。我不知道如何克服这个问题,以便我可以绘制一个通用的站点地图并一次取出数据。

为了防止网页抓取,现在各种网站都使用JavaScript渲染。你正在使用的网站(bigbasket.com)也使用JS将信息呈现给各种元素。要抓取这样的网站,你需要使用Selenium而不是传统的方法(如Java中的beautifulsoup)。

你还必须检查这方面的各种法律方面,以及网站是否希望你抓取这些数据。

最新更新