我正在使用apache nutch来抓取一些网站,深度可达6级。我正在将链接内容转储到我当前的工作目录中。链接内容包含以下格式的数据:
www.abc.com/help Inlink:
fromUrl: www.abc.com anchor: Help
fromUrl: www.xyz.com anchor: abc help
关于nutch,我的问题是,如果nutch能够生成上述数据,那么同一个lincontent文件是否应该包含www.abc.com及其Inlink:information(类似于www.xyz.com的信息),考虑到它有关于abc.com/help的信息,它会从www.abc.com和www.xyz.com.进行分析。然而,在某些情况下,我发现fromUrl没有它们的内联信息。为什么会这样?我是不是遗漏了什么?
Nutch默认情况下仅为不同域向linkdb
添加outlink,以减小链接数据库的大小。为了填充所有内联,必须在nutch-default.xml
中将db.ignore.internal.links
和linkdb.ignore.external.links
都设置为false
,或者在nutch-site.xml
中将其覆盖。