用nutch索引所有内部网



我使用Nutch,我想为intranet建立索引,但如何确保intranet上的所有内容都将被索引?

谢谢。

如果您知道intranet的所有URL,那么编写一个robots.txt(或一个包含所有URL的等效页面,并将爬网程序指向它)。

如果你不这样做,那么你就永远无法确保你已经爬网了所有的url,因为你无法在爬网后验证它。

在最后一种情况下,最好的机会是在最大深度爬行。

问候

相关内容

  • 没有找到相关文章

最新更新