在Amazon Web Services和Local上集成Solr + Hadoop和Nutch + Hbase



我在Amazon Web Services上有一台机器,我在上面尝试一些搜索功能。我已经在我的AWS机器上安装了Nutch和Hbase。

我以抓取wikipedia.org为例,抓取的数据存储在Hbase at cloud.

我想安装Solr并在其上进行搜索。我没有将我的系统安装为集群,因为我只是想做一些研究,例如,我如何使用它等。

我的问题是Hadoop站在这个系统(我还没有安装Hadoop)?在本地电脑上安装Hadoop和Solr是合乎逻辑的吗?另外,我的下一个挑战是如何将我的本地计算机与AWS计算机通信。

如果你安装了Nutch,你已经有了Hadoop,它可以处理你的抓取和解析。您可以将Nutch生成的数据推送到Solr中进行索引。

最新更新