网络爬虫-Apache Nutch:LinkConent内联和url



我正在使用apache nutch来抓取一些网站,深度可达6级。我正在将链接内容转储到我当前的工作目录中。链接内容包含以下格式的数据:

www.abc.com/help Inlink:
  fromUrl: www.abc.com anchor: Help
  fromUrl: www.xyz.com anchor: abc help

关于nutch,我的问题是,如果nutch能够生成上述数据,那么同一个lincontent文件是否应该包含www.abc.com及其Inlink:information(类似于www.xyz.com的信息),考虑到它有关于abc.com/help的信息,它会从www.abc.com和www.xyz.com.进行分析。然而,在某些情况下,我发现fromUrl没有它们的内联信息。为什么会这样?我是不是遗漏了什么?

Nutch默认情况下仅为不同域向linkdb添加outlink,以减小链接数据库的大小。为了填充所有内联,必须在nutch-default.xml中将db.ignore.internal.linkslinkdb.ignore.external.links都设置为false,或者在nutch-site.xml中将其覆盖。

相关内容

  • 没有找到相关文章

最新更新