关于Nutch，Hadoop，Solr，MapReduce和Mahout的信息

PS：如果我在任何一行中错了，请纠正我

我正在用Nutch和Solr构建一个搜索引擎。
我知道通过使用Solr，我可以提高搜索的效率 - 让Nutch单独进行整个网络的抓取。
我也知道Hadoop用于通过形成集群和MapReduce来处理PB级的数据。

现在，我想知道的是
1）由于，我将仅在1台机器上运行这些开源软件，即在本地主机上运行我的笔记本电脑...Hadoop在我的情况下如何有益，因为它形成了集群？如何在 1 台机器上形成集群？

2）在我的案例中，MapReduce的重要性是什么？

3）MAHOUT，CASSANDRA和HBASE如何影响我的引擎???

非常感谢这方面的任何帮助。如果我问了一个菜鸟问题，请道歉！！
谢谢
问候

1）因为，我将仅在 1 台机器上运行这些开源软件，即我的笔记本电脑在本地主机上......Hadoop在我的情况下如何有益，因为它形成了集群？

Hadoop的创建是为了处理大规模数据。Hadoop 是一个分布式应用程序。它不会为您提供好处单机。

如何在 1 台机器上形成集群？

在伪集群模式下安装 Hadoop

在我的案例中，MapReduce的重要性是什么？

同样，如果您想处理爬虫以 1000 GB 的规模获取的页面。Map-Reduce在处理如此大的数据时很有用

MAHOUT，CASSANDRA和HBASE对我的引擎有什么影响???

它们是满足不同需求的不同工具。

驯象师是机器适合在Hadoop上作为map-reduce任务运行的学习算法或本地文件。你想学习像谷歌翻译这样的语言吗？你可以使用它。

HBase 是一个无 sql 数据库，可提供更多实时数据处理临时分析，对于 map-reduce 更有用。

我建议你回到你的问题陈述，根据需要使用尽可能少的工具进行设计，当你点击笔记时，你会明白其中一些工具什么时候有用。

相关内容

最新更新

热门标签：