如何在 ubuntu 10.10 中配置 Nutch 和 solr



我正在尝试为我的最后一年项目构建一个搜索引擎。在过去的两个月里,我对这个话题做了很多研究。我发现我需要一个爬虫来爬网,一个解析器和一个索引器。

我正在尝试使用Nutch作为爬虫和solr来索引Nutch抓取的数据。但是我被困在它们两个的安装部分。我正在尝试借助互联网上的教程在我的系统中安装 Nutch 和 solr,但没有任何效果。

我需要某种安装指南或链接,我可以在其中学习如何安装和集成 Nutch 和 solr

接下来,我被解析器卡住了。我不知道这个阶段。我在这里需要有关如何在索引之前解析数据的帮助。

我不想建立谷歌或其他东西。我所需要的只是来自某些网站的某些项目进行搜索。

有Java经验,我可以舒适地使用它,但我不像你们那样是专业人士,请告诉我我是否朝着正确的方向前进,以及我下一步应该做什么。

我使用的是 Ubuntu 10.10,我有 Apache Tomcat 7。

这是用于坚果安装,这是为了与Solr集成。

关于解析器,nutch 有自己的一组解析器,您不必为解析而烦恼。触发爬网命令,它会自动完成。除非您想解析 nutch 提供的内容之外的内容,否则这对您来说不是问题。如果你想让nutch解析一些.xyz文件,那么你就应该为此编写解析器插件并与nutch集成。

最新更新