Nutch+Solr仅在顶级页面上

我一直在尝试使用Nutch在我的url文件中的域的第一页上进行爬网，然后使用Solr使爬网数据中的关键字可搜索。到目前为止，我还没能以这种方式完成任何工作，除非这两个页面链接在一起。

我意识到这可能是页面没有传入链接的问题，因此PageRank算法会丢弃页面内容。我试着调整参数，使不在图中的url的默认分数更高，但我仍然得到了相同的结果。

人们知道有什么东西可以在没有传入链接的页面上建立索引吗？

谢谢！

尝试使用nutch-injecte命令将"无插入链接"URL插入nutch-DB。

我想，如果你在solr索引中没有看到任何东西，那是因为nutch数据库中没有存储这些URL的数据（因为nutch会注意将其数据库与索引同步）。DB中没有数据可能是因为URL是孤立的，因此您可以尝试使用inject命令来包含这些站点。

我会尝试实际查看内部数据库来验证nutch的行为，因为在将值插入索引之前，nutch将数据存储在其数据库中。

指定更高的分数没有效果，因为只要数据在索引中，lucene就会给你一个结果。

Solr现在默认使用Tika读取HTML文件，所以这不是问题。

http://wiki.apache.org/solr/TikaEntityProcessor

如果你想要的只是列出的页面，有没有特定的理由使用Nutch爬网程序？或者，你可以直接将URL提供给Solr，然后从那里开始吗？

相关内容