我使用Nutch,我想为intranet建立索引,但如何确保intranet上的所有内容都将被索引?
谢谢。
如果您知道intranet的所有URL,那么编写一个robots.txt(或一个包含所有URL的等效页面,并将爬网程序指向它)。
如果你不这样做,那么你就永远无法确保你已经爬网了所有的url,因为你无法在爬网后验证它。
在最后一种情况下,最好的机会是在最大深度爬行。
问候
我使用Nutch,我想为intranet建立索引,但如何确保intranet上的所有内容都将被索引?
谢谢。
如果您知道intranet的所有URL,那么编写一个robots.txt(或一个包含所有URL的等效页面,并将爬网程序指向它)。
如果你不这样做,那么你就永远无法确保你已经爬网了所有的url,因为你无法在爬网后验证它。
在最后一种情况下,最好的机会是在最大深度爬行。
问候
javascript python java c# php android html jquery c++ css ios sql mysql arrays asp.net json python-3.x ruby-on-rails .net sql-server django objective-c excel regex ruby linux ajax iphone xml vba spring asp.net-mvc database wordpress string postgresql wpf windows xcode bash git oracle list vb.net multithreading eclipse algorithm macos powershell visual-studio image forms numpy scala function api selenium