使用谷歌Chrome扩展的电子商务网站的网络抓取

我正在尝试做一个电子商务网站的网页抓取，并寻找了所有主要的可能的解决方案。我发现最好的是谷歌Chrome浏览器的网页抓取扩展。我实际上想把网站上所有可用的数据都拉出来。

例如，我正试图抓取电子商务网站www.bigbasket.com的数据。现在，当我尝试创建一个站点地图时，我被困在这部分，我必须从页面中选择元素。同样的页面，比如类别A，当向下滚动时包含各种产品，一个类别页面进一步分成第1页，第2页和少数类别有第3页等等。

现在，如果我选择同一页面的多个元素，比如第1页，这完全没问题，但是当我试图从第2页或第3页选择元素时，刮刀提示不同类型的元素部分被禁用，并要求我通过选择复选框启用，之后我可以选择不同的元素。但是当我运行站点地图并开始抓取时，抓取器返回空值并且数据没有被提取出来。我不知道如何克服这个问题，以便我可以绘制一个通用的站点地图并一次取出数据。

为了防止网页抓取，现在各种网站都使用JavaScript渲染。你正在使用的网站(bigbasket.com)也使用JS将信息呈现给各种元素。要抓取这样的网站，你需要使用Selenium而不是传统的方法(如Java中的beautifulsoup)。

你还必须检查这方面的各种法律方面，以及网站是否希望你抓取这些数据。

相关内容

最新更新

热门标签：