是否可以使用Ruby中的海葵和nokogiri库从电子商务网站抓取产品?
我了解如何使用 nokogiri从每个产品页面中提取我需要的数据,但我无法弄清楚如何让海葵/nokogiri 抓取网站并抓取所有产品页面。
朝着正确的方向推动将不胜感激
我解决了我的问题。首先是海葵似乎没有爬行所有页面。这是因为我想要的页面位于一个子域下,我必须告诉海葵与主域分开抓取。其次,我需要一种方法来确定哪些页面实际上是产品页面(因此需要解析(。我通过解析我想要的字段之一(SKU 编号(然后测试它是否是带有 RegEX 的 SKU 来做到这一点。