PS:如果我在任何一行中错了,请纠正我
我正在用Nutch和Solr构建一个搜索引擎。
我知道通过使用Solr,我可以提高搜索的效率 - 让Nutch单独进行整个网络的抓取。
我也知道Hadoop用于通过形成集群和MapReduce来处理PB级的数据。
现在,我想知道的是
1)由于,我将仅在1台机器上运行这些开源软件,即在本地主机上运行我的笔记本电脑...Hadoop在我的情况下如何有益,因为它形成了集群?如何在 1 台机器上形成集群?
2)在我的案例中,MapReduce的重要性是什么?
3)MAHOUT,CASSANDRA和HBASE如何影响我的引擎???
非常感谢这方面的任何帮助。如果我问了一个菜鸟问题,请道歉!!
谢谢
问候
1)因为,我将仅在 1 台机器上运行这些开源软件,即我的笔记本电脑在本地主机上......Hadoop在我的情况下如何有益,因为它形成了集群?
Hadoop的创建是为了处理大规模数据。Hadoop 是一个 分布式应用程序。它不会为您提供好处 单机。
如何在 1 台机器上形成集群?
在伪集群模式下安装 Hadoop
在我的案例中,MapReduce的重要性是什么?
同样,如果您想处理爬虫以 1000 GB 的规模获取的页面。Map-Reduce在处理如此大的数据时很有用
MAHOUT,CASSANDRA和HBASE对我的引擎有什么影响???
它们是满足不同需求的不同工具。
驯象师是机器 适合在Hadoop上作为map-reduce任务运行的学习算法 或本地文件。你想学习像谷歌翻译这样的语言吗? 你可以使用它。
HBase 是一个无 sql 数据库,可提供更多实时数据 处理临时分析,对于 map-reduce 更有用。
我建议你回到你的问题陈述,根据需要使用尽可能少的工具进行设计,当你点击笔记时,你会明白其中一些工具什么时候有用。