Apache Nutch工作实例的最大数量



一个主节点可以同时运行的Apache Nutch爬网程序实例的最大数量是多少?

不清楚您所说的爬网程序实例是什么意思。如果你想并行运行几次爬网脚本,例如,你有不同的爬网,有不同的配置、种子等……那么它们将在Hadoop集群上争夺插槽。然后,它将归结为集群上可用的映射器/还原器插槽的数量,这本身取决于有多少从机。

并行处理多个Nutch爬网可能会变得非常棘手并且资源效率低下。相反,请重新思考您的体系结构,以便所有逻辑爬网程序都可以作为一个物理爬网程序运行,或者查看StormCrawler,它应该更适合这样做。

最新更新