Apache Nutch爬网程序如何排除静态文件夹,如;cgi-bin、images、css从nutch爬网程序中排除



当我们运行爬网程序时,我们会看到静态文件夹,如/cgi-bin、/images、/css等弹出在爬网程序作业中,我们希望将它们从爬网程序中排除(并不是说它们最终会出现在索引器中(,我们也不希望它们出现在索引程序中,但我们如何将它们排除在爬网程序中,使其不被这些静态文件夹占用?感谢您的帮助。它是否有助于性能,不包括它们?正如我们现在看到的那样,它出于某种原因获取它们。Nutch crawler 1.2,Lucene索引器。

将拒绝规则添加到conf/regex-urlfilter.txt文件中。

-cgi-bin
-images
-css

请注意,这必须在regex文件中的accept all规则(即+.(之前添加。

最新更新