风暴爬虫如何识别种子网址?

我正在使用带有mysql的风暴爬虫。

我有 100 个种子 URL，但我的缓冲区大小仅为 50。

如果某些种子的外链落在零号桶中会发生什么. 在这种情况下，这些外链是否也会被视为种子？

风暴爬虫如何将种子网址与其他网址区分开来？

不确定我是否理解您的问题。种子 URL 和非种子 URL 之间没有区别。StormCrawler 不会以任何特定方式识别它们。术语种子 URL仅表示将它们作为起点提供给爬网程序。

存储桶不是用于确定 URL 的优先级或区分它们，它们基于主机名或域，以便多个 spout 实例可以并行读取它们，并保证出于性能目的的站点的良好多样性。

StormCrawler 中的 SQL 模块不如其他后端(如 SOLR 或 Elasticsearch(高效。它适用于一些网站，但除此之外可能效率较低。

相关内容