如何用红宝石/海葵/野木从现场刮擦产品



是否可以使用Ruby中的海葵和nokogiri库从电子商务网站抓取产品?

我了解如何使用 nokogiri

从每个产品页面中提取我需要的数据,但我无法弄清楚如何让海葵/nokogiri 抓取网站并抓取所有产品页面。

朝着正确的方向推动将不胜感激

我解决了我的问题。首先是海葵似乎没有爬行所有页面。这是因为我想要的页面位于一个子域下,我必须告诉海葵与主域分开抓取。其次,我需要一种方法来确定哪些页面实际上是产品页面(因此需要解析(。我通过解析我想要的字段之一(SKU 编号(然后测试它是否是带有 RegEX 的 SKU 来做到这一点。

相关内容

  • 没有找到相关文章

最新更新