分布式爬虫和一致性



情况是,我们有多个服务器(40+(同时抓取一个相同的URL(以确保我们有最小的遗留内容(并将数据保存到数据库(MySQL(。

现在的问题是:数据来回切换。 例如,由于爬网程序/数据库遗留问题,内容将在几秒钟内为 A <</p> -> B <-> A <-> B <-> A。

有没有预防它的好方法?我们正在用Perl编写爬虫,但任何语言对我们来说都很好,因为我们可以借用背后的想法。

任何提示将不胜感激。雷迪斯?零MQ?

谢谢

锁定一行,以便另一个进程无法更新它。

相关内容

  • 没有找到相关文章

最新更新