Nutch+Solr仅在顶级页面上



我一直在尝试使用Nutch在我的url文件中的域的第一页上进行爬网,然后使用Solr使爬网数据中的关键字可搜索。到目前为止,我还没能以这种方式完成任何工作,除非这两个页面链接在一起。

我意识到这可能是页面没有传入链接的问题,因此PageRank算法会丢弃页面内容。我试着调整参数,使不在图中的url的默认分数更高,但我仍然得到了相同的结果。

人们知道有什么东西可以在没有传入链接的页面上建立索引吗?

谢谢!

尝试使用nutch-injecte命令将"无插入链接"URL插入nutch-DB。

我想,如果你在solr索引中没有看到任何东西,那是因为nutch数据库中没有存储这些URL的数据(因为nutch会注意将其数据库与索引同步)。DB中没有数据可能是因为URL是孤立的,因此您可以尝试使用inject命令来包含这些站点。

我会尝试实际查看内部数据库来验证nutch的行为,因为在将值插入索引之前,nutch将数据存储在其数据库中。

指定更高的分数没有效果,因为只要数据在索引中,lucene就会给你一个结果。

Solr现在默认使用Tika读取HTML文件,所以这不是问题。

http://wiki.apache.org/solr/TikaEntityProcessor

如果你想要的只是列出的页面,有没有特定的理由使用Nutch爬网程序?或者,你可以直接将URL提供给Solr,然后从那里开始吗?

最新更新